在當前人工智能領域,大語言模型(LLMs)取得了顯著成就,但其邏輯推理能力依然顯得不足。爲了提升這一能力,來自北京大學、清華大學、阿姆斯特丹大學、卡內基梅隆大學以及阿布扎比的 MBZUAI 等五所高校的研究人員,聯合發佈了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》綜述論文,聚焦於邏輯推理的兩大關鍵問題:邏輯問答和邏輯一致性。
研究表明,大語言模型在處理複雜邏輯推理時存在明顯的短板。例如,在邏輯問答任務中,當給定一系列前提時,模型往往無法生成正確的答案。以 “釘子能否導電” 爲例,模型需理清 “釘子是鐵製成的,鐵是金屬,金屬可以導電” 等推理鏈,才能得出 “假” 的結論。然而,研究發現 LLaMA 模型在相關任務上的準確率僅爲33.63%,稍高於隨機猜測的水平。
邏輯一致性是另一個亟待解決的問題。大模型在回答不同問題時,常常出現自相矛盾的情況。例如,某模型可能對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 都回答 “是”,但卻對 “喜鵲有翅膀嗎?” 回答 “否”,這顯然是邏輯上的矛盾。這種不一致性引發了人們對大模型可靠性的擔憂,特別是在醫療、法律等高風險領域的應用。
爲了提升大模型的邏輯推理能力,研究者們提出了幾種方法:首先,基於外部求解器的策略將自然語言問題轉化爲符號語言,利用求解器進行推理;其次,通過精心設計的提示詞,幫助模型在回答時明確邏輯推理鏈;最後,預訓練和微調方法則引入高質量的邏輯推理樣本,來增強模型的訓練效果。這些方法旨在確保大模型在推理過程中能夠保持一致性和可靠性,增強其在實際應用中的可信度。
在未來的研究中,學者們還計劃擴展模型的應用範圍,探索如何處理模態邏輯及不確定性,以進一步提高大模型的邏輯推理能力。
論文地址:https://arxiv.org/pdf/2502.15652