近日,Meta 的人工智能研究團隊與愛丁堡大學合作,開發了一種新技術,能夠預測大型語言模型(LLM)推理的正確性,並在發現錯誤時進行修復。這種名爲電路基礎推理驗證(CRV)的方法,旨在深入觀察 LLM 的內部 “推理電路”,以便在模型解決問題時檢測出計算錯誤的跡象。

研究表明,CRV 可以通過構建並觀察模型內部激活的計算圖,以高準確率檢測到 LLM 的推理錯誤。這一突破性的發現意味着研究人員可以利用深層次的內部信息,對模型的錯誤推理進行鍼對性的干預。
鏈式思維推理(CoT)作爲一種提升 LLM 在複雜任務上表現的方法,已經被廣泛應用,但它的可靠性依然存在問題。現有的驗證方法主要分爲兩類:“黑箱” 方法通過分析最終生成的 token 或置信度分數來驗證;“灰箱” 方法則試圖觀察模型的內部狀態,然而這些方法並不能解釋計算失敗的根本原因。
CRV 採用了一種 “白箱” 驗證方法,認爲模型在執行任務時會使用專門的神經元子圖。通過替換標準的稠密層爲訓練過的 “轉碼器”,研究人員使目標 LLM 變得可解釋,從而可以觀察到其內部工作原理。接着,CRV 會構建一個 “歸因圖”,映射信息在模型各個部分之間的因果流動,並提取出描述圖特性的 “結構指紋”。最終,訓練一個 “診斷分類器” 來預測推理步驟是否正確。
研究團隊在 Llama3.1模型上進行了實驗,結果表明,CRV 在各種數據集和指標上均優於其他驗證方法,展現了其強大的有效性。同時,研究發現,不同推理任務中的錯誤簽名具有領域特異性,這意味着不同類型的推理依賴於不同的內部電路。
最重要的是,CRV 不僅僅是相關性分析,它提供了一種透明的計算視圖,使得預測的失敗可以追溯到特定組件,研究人員因此可以通過抑制錯誤特徵,實時修正模型的推理路徑。
劃重點:
🌟 CRV 技術能有效預測並修復 LLM 的推理錯誤,提高 AI 的可靠性。
🧠 研究採用了 “白箱” 驗證方法,揭示了 LLM 的內部推理電路。
🔧 CRV 的成功應用爲未來 AI 模型調試工具的開發奠定了基礎。
