研究機関 METR が最新に公開した調査によると、AIプログラミング能力を評価するために広く使われているベンチマークテスト「SWE-bench Verified」は、実際のソフトウェア開発環境におけるAIエージェントの性能を著しく過大評価している可能性がある。この調査では、ベンチマークテストで「通過」と判定されたAIコード解決策の約半数が、実際にプロジェクトのメンテナーや開発者によって拒否されることが分かった。これにより、自動評価結果と実際のコード品質の間に明確なギャップが存在することが示された。
SWE-bench Verifiedは長期間にわたり、AIによるソフトウェアエンジニアリングの重要な評価基準として認識されてきた。このベンチマークは、モデルがオープンソースプロジェクトにおける現実的なプログラミング問題を解決できるか、およびコード変更がプロジェクトのテストスイートを通るかを検証するためのものである。アンセリントやオーパンAIなどの多くのAI企業も、モデルの能力進歩を示すためにこのベンチマークスコアをよく引用している。

今回の調査では、METRチームはscikit-learn、Sphinx、pytestのプロジェクトを維持している4人のベテラン開発者を招待し、5つのモデルから生成された296のAI生成コードを人間によるレビューを行った。その結果、メンテナーが実際に採用したコードの割合は、SWE-benchの自動スコアよりも平均で約24ポイント低かった。この差は統計的に有意であった。
調査では、拒否されたAIコードが主にスタイル上の問題ではなく、より本質的なエンジニアリング上の欠陥のために拒否されていることも明らかになった。メンテナーは問題を3つのカテゴリに分類した。1つ目はコード品質がプロジェクトの規格に合わないこと、2つ目は既存のコード構造を破壊すること、3つ目は基本的な機能的なエラーである。そのうちの多くは機能的なエラーであり、自動テストを通過しても問題が実際に修正されていないケースもあった。
モデル比較においては、Claude3.5SonnetからClaude3.7Sonnetへのアップグレードはベンチマークテストの通過率を顕著に向上させたが、メンテナーによって指摘される機能的エラーの数も増加した。Claude3.7からClaude4Opusへの移行では、問題がコード品質の面に焦点を当てたものとなった一方、Claude4.5Sonnetはコード品質面での改善が見られた。一方で、GPT-5は今回の評価においてアンセリントシリーズのモデルに比べて全体的なパフォーマンスが大幅に劣っていた。

研究チームはまた、「タスク時間枠」について推定分析を行った。SWE-benchの自動評価に基づいて計算すると、Claude4.5Sonnetが50%の成功率に達するには約50分の人間作業が必要だが、メンテナーの評価に基づけばわずか8分で済むという。これは、ベンチマークテストが約7倍の能力を過大評価している可能性を示している。
ただし、研究者たちはこの研究がAIプログラミングエージェントの能力に根本的な限界があることを意味するわけではないと同時に強調した。より良いプロンプト戦略やより多くの人間からのフィードバック、または複数回の反復を行うことで、自動評価と人間の審査の間のギャップはまだ縮められる可能性がある。さらに、実験環境は現実的な開発プロセスと異なる点もある。例えば、AIエージェントは一度だけコードを提出する機会しかないが、人間の開発者はフィードバックに基づきコードを繰り返し修正することができる。
全体的に見て、この研究は、AIプログラミングエージェントの実際の効果を単純にベンチマークスコアで評価することは系統的なバイアスを生じさせる可能性があることを指摘している。AIコードモデルが急速に進化する中、どのように現実的な開発環境に近い評価システムを構築するかは、AIソフトウェアエンジニアリング分野における重要な研究課題となっている。
