人工知能技術の急速な発展に伴い、多くのAIスタートアップが自社製品が働き方や知識の獲得方法を変えると主張しています。しかし、最近『ロイヤル・ソサエティ』誌に掲載された研究では、次世代のAIモデルがテキストを要約する際に深刻な問題があることが明らかとなり、懸念されています。研究結果によると、新しいAIチャットボットは情報提供時に、重要な情報が73%の確率で欠落していることがわかりました。

AI ロボット 人工知能 (3)データ解析

図版出典: 画像はAIによって生成され、画像ライセンス提供者Midjourneyによるものです。

この研究では、広く利用されている言語モデル(LLM)10種類を対象に分析が行われ、5,000件を超える科学論文の要約を含むサンプルを使用しました。対象となったチャットボットには、ChatGPT-4o、ChatGPT-4.5、DeepSeek、LLaMA3.370Bなどが含まれます。その結果、特定の要求に対してでも、AIが回答で重要な詳細を省略する確率は、人間が作成した科学アブストラクトの5倍以上にも達することが示されました。

研究者たちは次のように指摘しています。「科学的なテキストを要約する際、LLMは研究結果の範囲を限定する重要な詳細を省略し、結果としてオリジナルの研究の結論を過剰に一般化してしまう可能性があります。」さらに懸念されるのは、チャットボットがアップデートされるにつれて、その誤り率が逆に増加していることです。これはAI業界のリーダーたちが公約してきたこととは正反対です。例えば、2023年から2025年にかけてアメリカの青少年におけるChatGPTの利用率は13%から26%へと急増しました。研究において、旧バージョンのChatGPT-4Turboはオリジナル版の2.6倍、新バージョンのChatGPT-4oでは9倍の確率で重要な情報を省略しており、MetaのLLaMA3.370Bは旧バージョンに比べて過剰な一般化をする確率が36.4倍に達しました。

膨大なデータを簡潔な数行にまとめることは非常に複雑なタスクです。人間であれば具体的な経験から広範な教訓を直感的に引き出すことができますが、これがプログラミングされたチャットボットには非常に困難です。研究者たちは特に臨床医療分野では詳細が極めて重要であり、小さなミスが重大な結果を引き起こす可能性があると強調しています。そのため、LLMを医療や工学など多くの業界に広く応用することは大きなリスクを伴うとしています。

ただし、研究ではLLMに提供されるプロンプトが結果に大きな影響を与えることが示唆されていますが、それが科学論文の要約にどの程度影響を与えるかはまだ不明であり、これが今後の研究テーマとなるでしょう。全体的に見て、AI開発者が新一代のLLMの問題を効果的に解決できない限り、科学レポートの正確な要約には依然として人間によるコンテンツに依存せざるを得ないかもしれません。

ポイント:

🧠 研究では次世代AIチャットボットが情報を要約する際に、重要な詳細の欠落率が73%に達することを発見。

📈 最新版のチャットボットでは誤り率が上昇しており、特に青少年利用率が急増している背景で問題視。

🔍 提供されるプロンプトは回答に影響を与えますが、科学論文の要約への影響はまだ不明であり、さらなる研究が必要です。