上海交通大学が参加した国際研究チームは、今日新たにベーシステストツール「SWE-Explore」を正式に公開しました。このツールは、コード検索と実際の修正ステップを分離して評価することで、現在のAIコーディングエージェントが「行レベルの精度」において重大な技術的な欠点を持っていることを初めて数値化して明らかにしました。この研究は、これまでの「最終修正率」に依存する単一の評価モードを打ち破り、エージェントの上流検索品質を直接測定するための新しい基準を提供し、AIソフトウェアエンジニアリングの評価を深水部へと進めています。
従来のSWE-benchなどのベンチマークテストは、エンドツーエンドの結果のみに注目しているため、エージェントがコードの読み取りや理解段階で持つ真の欠点を隠蔽しがちです。これに対応するため、研究チームはGPT-5.4、Gemini3Pro、Claude Sonnet4.6、Kimi K2.6などの主要な大規模モデルの成功した実行軌跡に基づき、複数の独立した解法経路が交差する共通コードセグメントを参照値として抽出し、10種類のプログラミング言語、203のオープンソースプロジェクトを含む848の欠陥タスクデータセットを構築しました。

評価結果によると、Claude CodeやOpenHandsなどの汎用的なコードエージェントは「ファイルレベル」での位置決めでは優れたパフォーマンスを示しますが、具体的な「コード行」に焦点を当てると、そのコア領域カバレッジは14%から19%に急激に低下しています。アボレーション実験はさらに、「最小の文脈閾値」効果の存在を確認しました。つまり、キーコア領域の可視割合が50%未満になると、モデルの修正はほぼ失敗となる一方、50%から75%の閾値を超えると、修正成功率が急激に向上します。
この研究成果は、現在のAIエージェントの限界が補丁作成能力に完全にあるわけではなく、重要な文脈の正確なフィルタリングとキャプチャにあることを示しています。業界内ではプロジェクトマネージャーが半数の自動化採用案を拒否している現実がありますが、SWE-Exploreが提示した「少ないフィルタリング、多くの読解」の技術的方向性は、次世代の専門的なコード定位システム(例えばCoSILなど)のアーキテクチャ最適化に向けた方向を示すだけでなく、自動化されたソフトウェアエンジニアリングが「暴力的な生成」から「正確な検索」へのパラダイムシフトを加速させるでしょう。
