AI界の三大巨頭は、これまでにない敗北を経験しています。GPT-5やClaude Opus4.1、Gemini2.5といった、人工知能の王冠に輝くモデルが、Scale AIが新たに公開したSWE-BENCH PROプログラミング評価テストに直面したところ、全滅し、25%の解決率を突破できなかったのです。
このニュースは、AI業界全体の信頼を一撃で打ちのめしました。GPT-5はわずか23.3%の成績にとどまり、Claude Opus4.1は22.7%、GoogleのGemini2.5はさらに13.5%まで落ちました。これらの数字は、現時点で最も進んだAIモデルでも、真正な複雑なプログラミング課題には力不足であることを示しています。

しかし、表面的な現象に目を向けるのではなく、真実を見てみると、事実は想像以上に複雑です。前OpenAI研究員のNeil Chowdhuryによる深い分析により、別の側面が明らかになりました。彼は、GPT-5が挑戦しようとしたタスクにおいて、実際の正確率が63%にも達していることを発見しました。この数字は、Claude Opus4.1の31%を大きく上回っています。これは、GPT-5が全体的に平凡な成績を収めているように見えても、得意分野では依然として大きな競争力を持っていることを示しています。
では、なぜこれらの過去のAIの覇者たちが新しいテストで敗北を喫したのでしょうか?その答えは、SWE-BENCH PROの独自な設計理念にあります。このテストセットは、OpenAIが2024年8月に丁寧に作成したものです。まるで鋭い手術用ナイフのように、現在のAIモデルの本質的な能力の境界を解剖するためのものです。

以前のSWE-Bench-Verifiedテストのような70%以上の正答率を達成していたものとは異なり、SWE-BENCH PROの難易度は単なる数字のゲームではありません。テストチームは、モデルの訓練に使われた可能性のあるデータを意図的に回避し、長年AI評価に悩まされてきたデータ汚染問題を完全に排除しました。その結果、モデルたちは記憶しておいた答えに頼って誤魔化すことができず、本当の推論と問題解決能力を示さなければなりません。
SWE-BENCH PROのテスト範囲は非常に広く、商業アプリケーションや開発者ツールから来た1,865の実際の問題が含まれています。これらの問題は、パブリックセット、ビジネスセット、保留セットの3つの層に細かく分類され、それぞれのモデルが評価を受けたときには新たな挑戦に直面することになります。さらに驚くべきことに、研究チームはテスト中に人間の強化メカニズムを取り入れ、タスクの複雑さと現実性をさらに高めました。

テスト結果は無情にも、現在のAIモデルの弱みを露呈させました。実際の商業問題を解決する能力には明確な限界があることがわかりました。特にJavaScriptやTypeScriptなどの主流のプログラミング言語の処理において、各モデルの解決率は予測できないほど激しく変動しています。研究者は深く分析した結果、異なるモデルが同様のタスクを理解し、処理する際に著しい違いを示していることを発見しました。この差は、各社の技術的アプローチやトレーニング戦略の根本的な違いを反映しています。

注目すべきは、GPT-5が63.1%の未回答率を記録したことです。この数字は、まるで鏡のように、現在のAI技術の現状を明確に映し出しています。最高レベルのモデルでも、複雑な課題に直面するとしばしば沈黙を選択し、間違いを犯すリスクを避ける傾向があります。このような慎重な態度は、ある程度モデルの自己認識能力を示していますが、同時に業界全体の技術進歩に対して警鐘を鳴らしています。
