最近、MetaのAI研究チームはエジンバラ大学と協力して、大規模言語モデル(LLM)の推論の正確性を予測し、誤りが見つかったときに修正する新しい技術を開発しました。この技術は「回路ベースの推論検証(CRV)」と呼ばれ、LLMの内部の「推論回路」を深く観察し、モデルが問題を解決している際の計算エラーの兆候を検出することを目的としています。

研究によると、CRVはモデル内のアクティベーションの計算グラフを構築し、観察することで、LLMの推論エラーを高い正確性で検出できます。この画期的な発見により、研究者はモデルの誤った推論に対して的確な介入を行うことが可能になります。
チェーン・オブ・トークン(CoT)推論は、複雑なタスクにおけるLLMの性能向上に使われていますが、その信頼性には課題があります。現在の検証方法は主に2種類に分けられます。「ブラックボックス」方法では最終的に生成されたトークンや信頼度スコアを分析します。「グレーボックス」方法ではモデルの内部状態を観察しようとしますが、これらの方法は計算エラーの根本的な原因を説明できません。
CRVは「ホワイトボックス」検証方法を採用しています。この方法では、モデルがタスクを実行する際に専用のニューロンサブグラフを使用すると考えます。標準的な疎密層を訓練された「トランスコーダー」に置き換えることで、目標となるLLMを説明可能にし、その内部の動作原理を観察することが可能になります。その後、CRVは「帰因図」を構築し、情報がモデルの各部分間で因果的に流れていることをマッピングし、「構造指紋」と呼ばれる図の特性を抽出します。最終的に、「診断分類器」を訓練し、推論ステップが正しいかどうかを予測します。
研究チームはLlama3.1モデル上で実験を行い、結果はCRVが他の検証方法よりもさまざまなデータセットおよび指標において優れていることを示しています。これは、CRVの強力な有効性を示しています。また、研究では異なる推論タスクでのエラーサインがドメイン特異性を持っていることがわかりました。これは、異なるタイプの推論が異なる内部回路に依存していることを意味しています。
最も重要なのは、CRVは相関分析だけでなく、予測の失敗が特定のコンポーネントに遡れるように透明な計算ビューを提供することです。したがって、研究者は誤った特徴を抑制することで、モデルの推論パスをリアルタイムで修正することができます。
ポイント:
🌟 CRV技術は、LLMの推論エラーを効果的に予測・修正でき、AIの信頼性を向上させます。
🧠 研究では「ホワイトボックス」検証方法を採用し、LLMの内部推論回路を明らかにしています。
🔧 CRVの成功応用は、将来のAIモデルデバッグツールの開発に基盤を築きました。
