基準測試不等於真實能力?研究稱AI代碼“通過率”或被高估最高達7倍

研究機構 METR 最新發佈的一項研究顯示，被廣泛用於評估 AI 編程能力的基準測試 SWE-bench Verified 可能顯著高估了 AI 代理在真實軟件開發環境中的表現。研究發現，在基準測試中被判定爲“通過”的 AI 代碼解決方案中，大約一半在實際項目維護者審覈時會被拒絕，這意味着自動化評測結果與真實工程質量之間存在明顯差距。

SWE-bench Verified 長期被視爲 AI 輔助軟件工程的重要評估標準之一，用於測試模型是否能夠解決開源項目中的真實編程問題，並通過自動化測試驗證代碼修改是否通過項目測試套件。包括 Anthropic 和 OpenAI 在內的多家 AI 公司也經常引用這一基準成績展示模型能力進展。

在此次研究中，METR 團隊邀請了維護開源項目 scikit-learn、Sphinx 和 pytest 的四名資深開發者，對296段 AI 生成代碼進行人工評審。這些代碼來自五個模型生成的解決方案，包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結果顯示，維護者實際採納率平均比 SWE-bench 自動評分低約24個百分點，這一差異具有統計學意義。

研究還發現，被拒絕的 AI 代碼並非主要因爲風格問題，而是存在更實質性的工程缺陷。維護者將問題分爲三類:代碼質量不符合項目規範、對現有代碼結構造成破壞，以及基本功能錯誤。其中相當一部分案例屬於功能性錯誤，即使自動化測試通過，代碼仍未真正修復問題。

在模型對比方面，研究發現從 Claude3.5Sonnet 升級至 Claude3.7Sonnet 雖然顯著提升了基準測試通過率，但維護者標記的功能性錯誤數量也有所增加;從 Claude3.7到 Claude4Opus，問題則更多轉向代碼質量層面，而 Claude4.5Sonnet 在代碼質量方面有所改進。相比之下，GPT-5在本次評估中的整體表現明顯落後於 Anthropic 系列模型。

人工智能大腦，大模型

研究團隊還對“任務時間跨度”進行了估算分析:按 SWE-bench 自動評估結果推算，Claude4.5Sonnet 完成達到50% 成功率的任務需要約50分鐘的人類工作量，而按維護者評分計算僅約8分鐘，意味着基準測試可能存在高達約7倍的能力高估。

不過研究人員同時強調，該研究並不意味着 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代，自動評估與人工評審之間的差距仍可能縮小。此外，實驗環境也與真實開發流程存在差異，例如 AI 代理只有一次提交機會，而人類開發者通常可以根據反饋不斷修改代碼。

總體而言，該研究指出，單純依賴基準測試分數評估 AI 編程代理的實際效用可能產生系統性偏差。隨着 AI 編碼模型快速迭代，如何構建更接近真實開發環境的評估體系，正成爲 AI 軟件工程領域的重要研究方向。

OpenAI發佈GPT-5.2-Codex：最強智能體編程模型登場，可自主完成漏洞挖掘與PR提交

OpenAI發佈GPT-5.2-Codex，這是其最先進的智能體編程模型。它專爲處理複雜、長期的現實編碼任務設計，在基準測試中創下新紀錄，並能自主完成從代碼理解、環境搭建到漏洞挖掘和提交Pull Request的全流程。該模型融合了GPT-5.2的通用推理能力和GPT-5.1-Codex-Max的終端操作功能，標誌着AI在軟件工程實戰能力上的重大突破。

OpenAI 推出 GPT-5-Codex-Mini:更輕、更快、更省的開發者專用模型

OpenAI推出GPT-5-Codex-Mini編程模型，專爲開發者設計，性價比高。該模型基於GPT-5架構，強化代碼推理與生成能力，支持新項目創建、功能擴展、測試編寫及大規模代碼重構等複雜任務。在SWE-bench基準測試中得分74.5%，超越前代GPT-5High的72%，進一步拓展智能編程應用邊界。

重磅升級!Claude Opus4.1橫空出世，編程能力直衝74.5%新高!

Anthropic發佈Claude Opus4.1升級版，重點提升編程和數據分析能力。新模型在SWE-bench編程評測中取得74.5%的高分，GitHub開發者反饋其多文件代碼重構表現優異。Rakuten Group證實其能精準定位大型代碼庫錯誤。研究顯示Opus4.1在細節追蹤和agentic搜索方面進步顯著，性能提升約一個標準差。該模型仍保持ASL-3安全標準，無害響應率達98.76%，極端濫用場景配合度降低25%。現已面向所有付費用戶開放，價格不變。

開源新星 Kimi-Dev-72B：打破代碼修復界限的 AI 神器

最近，備受關注的開源大型語言模型 Kimi-Dev-72B 正式上線，成爲開發者們的新寵。這款模型由 “月之暗面” 團隊開發，專門爲解決代碼問題而設計，旨在提升編程效率。Kimi-Dev-72B 在近期的 SWE-bench Verified 測試中展現了非凡的實力，尤其在修復 Docker 環境中的代碼缺陷方面，表現得尤爲出色。這一優勢使得 Kimi-Dev-72B 不僅是開發者的得力助手，更是優化開發流程的重要工具。該模型的核心優勢在於其基於強化學習的優化機制。通過不斷自我學習和改進，Kimi-Dev-72B 能夠精準地定位代碼中的問題

月之暗面發佈全新開源模型 Kimi-Dev-72B，打破編程基準記錄

月之暗面（Moonshot AI）宣佈推出其新開源模型 Kimi-Dev-72B，這一模型專注於軟件工程任務，並在 AI 編程基準測試 SWE-bench Verified 中創下了全球最高的開源模型成績。Kimi-Dev-72B 以僅72億參數量的設計，成功超越了剛發佈不久的 DeepSeek-R1，後者的參數量高達671億。在 SWE-bench Verified 測試中，Kimi-Dev-72B 獲得了60.4% 的高分，成爲當前開源模型中的新標杆。該模型的優化過程包括大規模強化學習，使其能夠自動修復 Docker 環境中的真實存儲庫。Kimi-Dev-72B 在測試中僅在所有測試用例通過後才能獲得獎勵，