マイクロソフトとセールスフォースの共同研究によると、最も進んだAI言語モデルでも長時間にわたる対話において重大な信頼性の問題が生じることが明らかになりました。ユーザーが段階的に要件を表明する場合、システムのパフォーマンスは平均して39%低下します。この発見は、AIアシスタントの実際的な適用に重要な警告を示しています。

リアルなインタラクションをシミュレートし、パフォーマンスの欠陥を明らかに

研究チームは「シャーディング」というテスト手法を作成し、ユーザーが実際の対話の中で要件を段階的に明確にするプロセスをシミュレートしました。一度にすべての情報を提供する従来の方法とは異なり、この手法はタスクを複数のステップに分解し、より現実的な利用シーンに近づけています。

その結果は衝撃的です: AIモデルの正確率は約90%から急激に51%まで下がりました。小型のオープンソースモデルであるLlama-3.1-8Bから大規模な商業システムであるGPT-4oまで、測定された全15モデルすべてでこの劇的な低下が確認されました。

QQ20250529-092044.png

各実験では90から120の命令が含まれており、それらは高品質なデータセットからの小さなサブタスクに分解されます。

トップモデルも影響を受ける

研究中のトップモデルであるClaude3.7Sonnet、Gemini2.5Pro、GPT-4.1ですら、マルチラウンド対話ではシングルラウンド対話よりも30%から40%パフォーマンスが低下しました。さらに懸念されるのは、これらのモデルの一貫性が大幅に低下したことです。同じタスクでの最高と最低のパフォーマンスの差は50ポイントに達しました。

浮き彫りになった4つの主要な問題

研究では、AIモデルがマルチラウンド対話で直面する4つの核心的な問題が特定されました:

  • 早期結論: 全ての必要な情報を受け取る前に急いで結論を出す傾向
  • 歴史への過度の依存: 過去の回答を信じ込み、その中に誤りがあってもそれを疑わない傾向
  • 重要な情報の無視: 対話過程で重要な情報を無視する傾向
  • 過剰な詳細化: 余分な詳細を提供することで、情報不足に対する誤った仮定を生む傾向

技術的な最適化は効果なし

信頼性を向上させるために、研究チームはさまざまな技術的な改良を試みました。具体的には、モデルの温度設定を下げてランダム性を減らしたり、AIにユーザーの指示を繰り返させたりしました。しかし、これらの最適化措置は顕著な効果をもたらしませんでした。

研究では、各ステップで提供する詳細の量を変えることも役に立たないとわかりました。唯一確実な解決策は、対話の最初にすべての必要な情報を提供することです。

QQ20250529-092051.png

大規模な言語モデルはしばしばマルチステップで明確に指定されていない対話の中で「迷子」になり、パフォーマンスが顕著に低下します。

能力と信頼性の分化

パフォーマンスの低下は二つの側面で観察されます: モデルの基本的な能力は約16%低下しましたが、信頼性は112%急上昇しました。シングルタスクでは能力が高いほど信頼性も高い傾向がありますが、マルチラウンド対話では全てのモデルの信頼性が同様に悪化し、ベースラインのスキルレベルに関係ありませんでした。

実用的な対応策

研究結果に基づいて専門家は2つの実用的な提言を行いました:

ユーザー向け: 対話が逸脱した場合、修正を試みるよりも新しい対話を開始した方が良いです。対話が終わったら、AIに全ての要件をまとめさせて、それを新たな対話の起点とします。

開発者向け: 多ラウンド対話における信頼性の開発にさらなる重点を置くべきです。将来のモデルは、不完全な指示に対して安定したパフォーマンスを維持できるようになる必要があります。特殊なヒントテクニックやパラメータ調整に頼るのではなく。

業界への影響と展望

この研究は、AIアシスタントが現実世界で直面する大きな課題を浮き彫りにしました。ユーザーが通常進行するように段階的に要件を伝えるため、信頼性の問題はユーザーエクスペリエンスやAIシステムの実際の価値に深刻な影響を与える可能性があります。

研究者は、信頼性が原始的なパフォーマンスと同じくらい重要であり、特に複雑でマルチステップの相互作用を処理する現実世界のAIアシスタントにとってそれが重要な点だと強調しました。この発見はAI業界に重要な改善方向を示しています。