最近のOpenAIによる研究によると、人工知能技術の急速な発展にもかかわらず、現在最先端の言語モデルは事実問題への回答において、期待をはるかに下回る成功率しか示していないことが明らかになりました。
この研究では、OpenAI独自のSimpleQAベンチマークテストが用いられました。このテストは、科学、政治、芸術など複数の分野を網羅した4,326個の質問から構成され、それぞれ明確な正解が用意されています。
2人の独立した審査員による検証の結果、OpenAIの最良モデルであるo1-previewの正解率はわずか42.7%であることが判明しました。GPT-4oはさらに低く38.2%、より小型のGPT-4o-miniに至っては8.6%にとどまりました。対照的に、AnthropicのClaudeモデルはさらに低く、Claude-3.5-sonnetの正解率は28.9%でした。
この研究の重要な点は、AIのパフォーマンスをテストするだけでなく、AIモデルの知識獲得における限界を明らかにすることにもあったということです。研究者らは、これらのモデルを使用する際には、完全に信頼できる知識源としてではなく、情報処理ツールとして扱うべきだと強調しています。より正確な回答を得るためには、AIに内蔵された知識に頼るのではなく、信頼できるデータを提供することが重要です。
注目すべき点として、AIモデルは自身の能力を過大評価することが多いという事実があります。研究者らは、これらのモデルに自身の回答に対する自信度を評価させる実験を行ったところ、一般的に過大な正確性スコアを与えていることが分かりました。同じ質問を繰り返し尋ねるテストでは、モデルが同じ回答を複数回繰り返しても、実際の成功率は自己評価の正確性よりも低くなりました。これは、言語モデルがしばしば不合理な回答を自信満々に提示するという外部からの批判と一致しています。
研究者らは、現在のAIシステムには事実の正確性に関して明らかなギャップがあり、改善が必要だと考えています。同時に、彼らは、簡潔な事実問題への回答能力が、より長く複雑な回答を処理する能力を予測できるかどうかという未解決の問題も提起しています。より信頼性の高い言語モデルの開発を支援するため、OpenAIはSimpleQAベンチマークテストのデータをGithubで公開しました。
要点:
📊 OpenAIの研究によると、最先端の言語モデルは事実問題への回答において成功率が低く、最高でも42.7%でした。
🤖 これらのAIモデルはしばしば自身の能力を過大評価し、自信度は一般的に過大です。
🔍 OpenAIはより信頼性の高い言語モデルの研究を支援するため、SimpleQAベンチマークを公開しました。