普林斯頓大學和耶魯大學的研究人員最近發佈了一份關於大語言模型(LLM)“思維鏈(CoT)”推理能力的報告,揭示了CoT推理的奧祕:它並非純粹基於邏輯規則的符號推理,而是融合了記憶、概率和噪聲推理等多種因素。

研究人員以破解移位密碼爲測試任務,分析了GPT-4、Claude3和Llama3.1這三個LLM的表現。移位密碼是一種簡單的編碼方式,每個字母都被替換成字母表中向前移動固定位數的字母。例如,將字母表向前移動3位,"CAT"就會變成"FDW"。

image.png

研究結果表明,影響CoT推理效果的三個關鍵因素是:

概率:LLM更傾向於生成概率較高的輸出,即使推理步驟指向的是概率較低的答案。例如,如果推理步驟指向"STAZ",但"STAY"是更常見的單詞,LLM可能會“自我修正”並輸出"STAY"。

記憶:LLM在預訓練過程中記住了大量文本數據,這會影響其CoT推理的準確性。例如,rot-13是最常見的移位密碼,LLM在rot-13上的準確率明顯高於其他類型的移位密碼。

噪聲推理:LLM的推理過程並非完全準確,而是存在一定程度的噪聲。隨着移位密碼的位移量增加,解碼所需的中間步驟也隨之增加,噪聲推理的影響也更加明顯,導致LLM的準確率下降。

研究人員還發現,LLM的CoT推理依賴於自我條件化,即LLM需要明確生成文本作爲後續推理步驟的上下文。如果LLM被指示“默默思考”而不輸出任何文本,其推理能力就會大幅下降。 此外,演示步驟的有效性對CoT推理的影響並不大,即使演示步驟存在錯誤,LLM的CoT推理效果依然可以保持穩定。

這項研究表明,LLM的CoT推理並非完美的符號推理,而是融合了記憶、概率和噪聲推理等多種因素。LLM在CoT推理過程中既表現出記憶大師的特點,也展現了概率高手的風範。這項研究有助於我們更深入地理解LLM的推理能力,併爲未來開發更強大的AI系統提供 valuable insights。

論文地址:https://arxiv.org/pdf/2407.01687