ワシントン州立大学(WSU)が最近発表した研究によると、ChatGPTの回答は自信に満ちているものの、複雑な科学的な主張を扱う際には「ランダムな推測」に近いと判明しました。この研究では、モデルの正確性が限られているだけでなく、同じ質問に対して矛盾する答えをよく出すことも指摘されています。

メスット・チセック准教授のチームは、2021年以降のビジネス関連の論文から719の研究仮説を抽出し、その多くをモデルに真偽判断を繰り返して依頼しました:

ChatGPTの表面的な正解率は約80%ですが、ランダムな推測を除外した場合、実際の性能は50%の「コイン投げ」の確率よりわずかに60%高いに過ぎません。研究者たちはこれを「Dの成績」と評価しています。誤った記述を識別する能力は非常に悪いもので、「偽命題」の正しい判断率はわずか16.4%です。

研究者はそれぞれの仮説をモデルに10回提示し、モデルが立場の一貫性を保つのが難しいことを確認しました:

  • 回答が揺れる:10回の繰り返し質問において、モデルは約73%のケースで結論を一致させています。

  • 極端な矛盾:一部のケースでは、モデルが「真・偽」を交互に答えることがあり、同じプロンプトを使っても「半分が真で、半分が偽」という極端な状況になることもあります。

研究では、ユーザーがAIの流暢で説得力のある言葉に惑わされやすいことを見て取っていますが、これは実際に推論能力があることを意味しません:

  • 本当の「脳」がない:モデルは基本的に記憶やパターン照合を行っており、人間のように世界を理解したり、自分が何を言っているのかを知っているわけではありません。

  • バージョンの進化は限定的:テスト結果によると、2025年にテストされたアップデート版のChatGPT-5 miniは、初期バージョンと比較してこの特定のタスクにおける全体的なパフォーマンスはほぼ同等であり、質的な飛躍は見られていません。

研究結果に基づき、Cicek氏は企業の管理職が複雑な意思決定を行う際には高い警戒心を持つべきだと提言しています。生成型AIを専門的な判断の代替として「権威」と見なすべきではなく、すべての出力を人間がチェックする必要があります。組織は、従業員がAIツールの長所と短所を理解できるようトレーニングを強化すべきです。盲目な信頼による意思決定のバイアスを防ぐためです。

この研究は、AI技術が急速に進化する中で、その深い論理的判断や証拠の重みを考慮する能力がまだ改善が必要であることを改めて公衆に思い出させてくれます。