Meta AI 實驗室今天把 Llama3.1改造成推理“X 光機”——新模型 CoT-Verifier 正式登陸 Hugging Face,專門剖開鏈式思維(CoT)每一步的“電路軌跡”,讓錯誤不再躲在黑箱裏。

傳統驗證只看輸出對不對,Meta 換了個視角:先給模型跑一次前向,再把每一步的歸因圖(attribution graph)抽出來。團隊發現,正確與錯誤推理的圖結構差異極大,就像兩條形狀完全不同的電路板。用輕量級分類器在這些“圖特徵”上訓練,錯誤步驟的預測準確率直接飆到 SOTA,且不同任務(數學、邏輯、常識)各自有獨特的“故障圖譜”,說明推理失敗並非隨機噪聲,而是可量化、可分類的計算模式。

image.png

更關鍵的是,歸因圖不僅能“診斷”,還能“動刀”。Meta 在實驗裏對高可疑節點做定向消融或權重偏移,成功把 Llama3.1在 MATH 數據集上的準確率再提4.2個百分點,而無需重新訓練主幹。換句話說,CoT-Verifier 把推理糾錯從“事後覆盤”變成“術中導航”。

模型已開源,腳本一鍵復現。開發者只需把待驗證的 CoT 路徑餵給 Verifier,就能拿到每一步的“結構異常分”,並定位最可能出錯的上游節點。Meta 在論文結尾放話:下一步把同樣的圖干預思路搬到代碼生成、多模態推理,讓“白盒手術”成爲 LLM 的新標配。