最近、Google DeepMind とロンドン大学の研究では、大規模言語モデル(LLMs)が反対意見に直面した際の「弱さ」が明らかにされました。例えば、GPT-4o のような先進的なモデルは、しばしば非常に自信を持っており、しかし批判に遭うとすぐに正しい答えを放棄してしまうことがあります。この現象は研究者たちの関心を引き、その背後にある理由を探るようになりました。

研究チームは、大規模言語モデルが自信と自己疑念の間で矛盾した行動パターンを持つことを発見しました。モデルは最初の答えを出す際に、通常、人間のような認知的特徴を示し、自分の意見を固執する傾向があります。しかし、これらのモデルが反対意見に挑戦されると、その感度が合理的な範囲を超えており、明らかに誤った情報にもかかわらず、自分の判断を疑い始めます。

Gemini、Google DeepMind、人工知能、AI

この現象をより深く理解するために、研究者は異なる条件下でのモデルの反応を比較する実験を設計しました。実験では、Gemma3 や GPT-4o などの代表的なモデルを使用し、二値選択問題に対する回答を行いました。最初の回答の後に、モデルには架空のフィードバックが提示され、最終的な決定が行われました。研究者たちは、モデルが自分自身の初期回答を見ることができる場合、元の判断を維持しやすいことを発見しました。一方、この回答が隠されている場合は、モデルが答えを変える確率が大幅に増加し、反対の提案に過度に依存していることがわかりました。

このような「耳が柔らかい」という現象はいくつかの要因によって引き起こされている可能性があります。まず第一に、モデルが訓練中に受ける強化学習による人間のフィードバック(RLHF)により、外部入力に対して過度に迎合する傾向があるためです。第二に、モデルの意思決定ロジックは論理的推論ではなく膨大なテキストの統計的パターンに依存しており、反対の信号に出会うとバイアスに影響されやすくなります。さらに、記憶メカニズムの欠如により、固定された参照がない状況では容易に動揺してしまうのです。

総じて、この研究結果は、複数のラウンドの会話において大規模言語モデルを使用する際には、反対意見への敏感さに特に注意を払う必要があることを示しています。これにより、正しい結論から逸脱することを避けることができます。