イスラエル工科大学を主導とする最新の研究によると、大規模言語モデル(LLM)は「潜在能力」を秘めており、実際に見せる能力よりも多くの知識を保有している可能性があることが示されました。研究者らは、LLMの内在表現が、出力の正しさに関する情報を符号化しており、たとえ最終的に間違った答えを生成した場合でも、内部的には正しい答えを認識できることを発見しました。

この研究チームは、LLMの長文生成における誤りに焦点を当てて分析を行いました。これは、現実世界の応用シーンにより近いからです。彼らは、モデルが生成した回答と実際の回答を比較することで正しさを判断する誤検出データセットを作成し、これを基に、LLMの内在表現において真実性のシグナルが符号化されている場所を研究しました。

image.png

研究の結果、これまでの研究が最後の生成トークンや平均値に注目していたのと異なり、真実性の情報は「正確な回答トークン」、つまり変更すると回答の正しさが変わるトークンに集中していることが分かりました。「コネチカット州の州都はどこですか?」という質問を例に挙げると、正確な回答トークンは「ハートフォード」です。

正確な回答トークンを特定するために、研究者らは、モデルの長文回答から正確な回答を抽出できる外部アルゴリズムを使用しました。実験の結果、評価されたすべてのLLMが、自身の出力から正確な回答を抽出できることが示されました。

様々なモデルとデータセットを用いた実験を通じて、研究者らは、正確な回答トークンを使用することで、特にモデルの内在表現を探る際に、誤検出方法の性能を大幅に向上できることを発見しました。

さらに驚くべきことに、モデルが生成プロセスにおいて正しい回答への選好を示さなかった場合でも、検出器は依然として正確な回答を効果的に識別できました。これは、LLMの内在的符号化と外部行動の間に著しいずれが存在することを示しており、モデルが内部的に正しい答えを知っていても、実際のテキスト生成時には間違った答えを出す可能性があるということです。

この研究は、LLMの誤り分析と改善に重要な意味を持ちます。LLMの内在表現における真実性のシグナルの符号化方法を深く理解することで、より効果的な誤検出と修正方法を開発し、LLMの信頼性と実用性を向上させることができます。

論文アドレス:https://arxiv.org/pdf/2410.02707