大規模言語モデル(LLM)、特にChatGPTなどのアプリケーションの普及により、人機インタラクションの方法は完全に変わりました。これらのモデルは、首尾一貫した包括的なテキストを生成でき、非常に印象的です。しかし、その強力な能力にもかかわらず、LLMは「幻覚」を起こしやすいという問題があります。これは、一見すると真実のように見えるが、実際には虚構、無意味、またはプロンプトと一致しない内容を生成することを意味します。

image.png

ハーバード大学の研究者たちは、LLMの「幻覚」現象について深く研究し、その根本原因がLLMの動作原理にあることを発見しました。LLMは膨大なテキストデータから機械学習を行い、確率モデルを構築し、単語の共起確率に基づいて次の単語を予測します。言い換えれば、LLMは言語の意味を本当に理解しているのではなく、統計的確率に基づいて予測しているのです。

研究者たちは、LLMを「クラウドソーシング」に例え、LLMは実際には「ネット上のコンセンサス」を出力していると主張しています。ウィキペディアやRedditなどのプラットフォームと同様に、LLMは大量のテキストデータから情報を抽出し、最も一般的な回答を生成します。言語のほとんどの使用方法は世界を記述することなので、LLMが生成する回答は通常正確です。

しかし、LLMが曖昧で、論争の的になっている、またはコンセンサスがないトピックに出会うと、「幻覚」が発生します。この仮説を検証するために、研究者たちは一連の実験を行い、さまざまなLLMがさまざまなトピックを処理する際の性能をテストしました。実験の結果、LLMは一般的なトピックを処理する際には良好な性能を示しましたが、曖昧または論争の的になっているトピックを処理する際には、正確性が著しく低下することが明らかになりました。

この研究は、LLMは強力なツールであるものの、その正確性はトレーニングデータの質と量に依存することを示しています。LLMを使用する際には、特に曖昧または論争の的になっているトピックを扱う際には、その出力結果を慎重に扱う必要があります。この研究はまた、LLMの将来の発展の方向性を示しており、曖昧で論争の的になっているトピックを処理するLLMの能力を向上させ、その出力結果の説明可能性を高める必要があることを示唆しています。

論文アドレス:https://dl.acm.org/doi/pdf/10.1145/3688007