上海交通大学などのチームがSWE-Exploreベンチマークテストを公開し、AIコードエージェントの行レベルの位置指定の欠点を明らかに

上海交通大学が参加した国際研究チームは、今日新たにベーシステストツール「SWE-Explore」を正式に公開しました。このツールは、コード検索と実際の修正ステップを分離して評価することで、現在のAIコーディングエージェントが「行レベルの精度」において重大な技術的な欠点を持っていることを初めて数値化して明らかにしました。この研究は、これまでの「最終修正率」に依存する単一の評価モードを打ち破り、エージェントの上流検索品質を直接測定するための新しい基準を提供し、AIソフトウェアエンジニアリングの評価を深水部へと進めています。

従来のSWE-benchなどのベンチマークテストは、エンドツーエンドの結果のみに注目しているため、エージェントがコードの読み取りや理解段階で持つ真の欠点を隠蔽しがちです。これに対応するため、研究チームはGPT-5.4、Gemini3Pro、Claude Sonnet4.6、Kimi K2.6などの主要な大規模モデルの成功した実行軌跡に基づき、複数の独立した解法経路が交差する共通コードセグメントを参照値として抽出し、10種類のプログラミング言語、203のオープンソースプロジェクトを含む848の欠陥タスクデータセットを構築しました。

評価結果によると、Claude CodeやOpenHandsなどの汎用的なコードエージェントは「ファイルレベル」での位置決めでは優れたパフォーマンスを示しますが、具体的な「コード行」に焦点を当てると、そのコア領域カバレッジは14％から19％に急激に低下しています。アボレーション実験はさらに、「最小の文脈閾値」効果の存在を確認しました。つまり、キーコア領域の可視割合が50％未満になると、モデルの修正はほぼ失敗となる一方、50％から75％の閾値を超えると、修正成功率が急激に向上します。

この研究成果は、現在のAIエージェントの限界が補丁作成能力に完全にあるわけではなく、重要な文脈の正確なフィルタリングとキャプチャにあることを示しています。業界内ではプロジェクトマネージャーが半数の自動化採用案を拒否している現実がありますが、SWE-Exploreが提示した「少ないフィルタリング、多くの読解」の技術的方向性は、次世代の専門的なコード定位システム（例えばCoSILなど）のアーキテクチャ最適化に向けた方向を示すだけでなく、自動化されたソフトウェアエンジニアリングが「暴力的な生成」から「正確な検索」へのパラダイムシフトを加速させるでしょう。

カーソルがモバイル向けAIコード作成アプリを正式リリース、マルチスクリーンデスクトップの制約から解放

AI支援コーディング企業Cursorがモバイルアプリを発表。開発者はスマホで遠隔のAIコーディングエージェントとリアルタイム協業可能。同社の2.0版による自律エージェント戦略を踏襲。SpaceXの600億ドル買収直後の発表で、Cursorの資金力と業界変革への野心を示す。....

Figma MCPサーバーが大幅アップグレード！一撃でデザインからコードへ大量の設計とフロントエンドから翻訳の時代を終える

Figmaが公式リモートMCPサーバーをリリース。クライアント不要でAIエージェントが設計コンテキストにアクセス可能に。IDE/ブラウザ/モバイルで高精度なデザイン→コード変換を実現。プロトタイプから製品化までの流れを加速し、デザインと開発の融合を促進。....

銀行業の百万ドル年収争い、チーフAIオフィサーにイバムの調査で最高幹部の設置率が1年で50％増加

世界的な銀行業界で最高AI責任者（CAIO）の高額報酬争奪戦が激化。HSBC、コモンウェルス銀行、ロイズ銀行などがここ3ヶ月で相次いでAI責任者を任命。調査によると、CAIOを設置する組織の割合は2025年の26％から2026年には76％に急上昇し、報酬も大幅に上昇。金融業界のリーダーシップ構造を変革している。....

上海交通大学などのチームがSWE-Exploreベンチマークテストを公開し、AIコードエージェントの行レベルの位置指定の欠点を明らかに

関連推奨

チャマスがCEOに就任、AIコードでスタートアップの8090Labsが1億3500万ドルのAラウンド資金調達

カーソルがモバイル向けAIコード作成アプリを正式リリース、マルチスクリーンデスクトップの制約から解放

Figma MCPサーバーが大幅アップグレード！一撃でデザインからコードへ大量の設計とフロントエンドから翻訳の時代を終える

銀行業の百万ドル年収争い、チーフAIオフィサーにイバムの調査で最高幹部の設置率が1年で50％増加

雨果賞作家の新作が物議を醸す！AIによる執筆比率が半分に達したことを主動的に認めた

上海交通大学などのチームがSWE-Exploreベンチマークテストを公開し、AIコードエージェントの行レベルの位置指定の欠点を明らかに

関連推奨

チャマスがCEOに就任、AIコードでスタートアップの8090Labsが1億3500万ドルのAラウンド資金調達

カーソルがモバイル向けAIコード作成アプリを正式リリース、マルチスクリーンデスクトップの制約から解放

Figma MCPサーバーが大幅アップグレード！一撃でデザインからコードへ 大量の設計とフロントエンドから翻訳の時代を終える

銀行業の百万ドル年収争い、チーフAIオフィサーにイバムの調査で最高幹部の設置率が1年で50％増加

雨果賞作家の新作が物議を醸す！AIによる執筆比率が半分に達したことを主動的に認めた

Figma MCPサーバーが大幅アップグレード！一撃でデザインからコードへ大量の設計とフロントエンドから翻訳の時代を終える