研究機構 METR 最新發佈的一項研究顯示,被廣泛用於評估 AI 編程能力的基準測試 SWE-bench Verified 可能顯著高估了 AI 代理在真實軟件開發環境中的表現。研究發現,在基準測試中被判定爲“通過”的 AI 代碼解決方案中,大約一半在實際項目維護者審覈時會被拒絕,這意味着自動化評測結果與真實工程質量之間存在明顯差距。

SWE-bench Verified 長期被視爲 AI 輔助軟件工程的重要評估標準之一,用於測試模型是否能夠解決開源項目中的真實編程問題,並通過自動化測試驗證代碼修改是否通過項目測試套件。包括 Anthropic 和 OpenAI 在內的多家 AI 公司也經常引用這一基準成績展示模型能力進展。

QQ20260312-093454.jpg

在此次研究中,METR 團隊邀請了維護開源項目 scikit-learn、Sphinx 和 pytest 的四名資深開發者,對296段 AI 生成代碼進行人工評審。這些代碼來自五個模型生成的解決方案,包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結果顯示,維護者實際採納率平均比 SWE-bench 自動評分低約24個百分點,這一差異具有統計學意義。

研究還發現,被拒絕的 AI 代碼並非主要因爲風格問題,而是存在更實質性的工程缺陷。維護者將問題分爲三類:代碼質量不符合項目規範、對現有代碼結構造成破壞,以及基本功能錯誤。其中相當一部分案例屬於功能性錯誤,即使自動化測試通過,代碼仍未真正修復問題。

在模型對比方面,研究發現從 Claude3.5Sonnet 升級至 Claude3.7Sonnet 雖然顯著提升了基準測試通過率,但維護者標記的功能性錯誤數量也有所增加;從 Claude3.7到 Claude4Opus,問題則更多轉向代碼質量層面,而 Claude4.5Sonnet 在代碼質量方面有所改進。相比之下,GPT-5在本次評估中的整體表現明顯落後於 Anthropic 系列模型。

人工智能大腦,大模型

研究團隊還對“任務時間跨度”進行了估算分析:按 SWE-bench 自動評估結果推算,Claude4.5Sonnet 完成達到50% 成功率的任務需要約50分鐘的人類工作量,而按維護者評分計算僅約8分鐘,意味着基準測試可能存在高達約7倍的能力高估。

不過研究人員同時強調,該研究並不意味着 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代,自動評估與人工評審之間的差距仍可能縮小。此外,實驗環境也與真實開發流程存在差異,例如 AI 代理只有一次提交機會,而人類開發者通常可以根據反饋不斷修改代碼。

總體而言,該研究指出,單純依賴基準測試分數評估 AI 編程代理的實際效用可能產生系統性偏差。隨着 AI 編碼模型快速迭代,如何構建更接近真實開發環境的評估體系,正成爲 AI 軟件工程領域的重要研究方向。