OpenAI推出SWE-bench Verified:提升AI軟件工程能力評估

OpenAI於8月13日宣佈推出SWE-bench Verified代碼生成評估基準，旨在更準確評估人工智能模型在軟件工程任務中的表現。這一新基準解決了此前SWE-bench存在的多項侷限性。

SWE-bench是一個基於GitHub真實軟件問題的評估數據集，包含來自12個流行Python倉庫的2294個Issue-Pull Request對。然而，原版SWE-bench存在三個主要問題:單元測試過於嚴格，可能拒絕正確解決方案;問題描述不夠明確;開發環境難以可靠設置。

QQ截圖20240815145302.png

爲解決這些問題，SWE-bench Verified引入了容器化Docker環境的新評估工具包，使評估過程更加一致和可靠。這一改進顯著提升了AI模型的表現評分。例如，GPT-4o在新基準下解決了33.2%的樣本，而表現最佳的開源代理框架Agentless的得分也翻倍至16%。

這一性能提升表明，SWE-bench Verified能更好地捕捉AI模型在軟件工程任務中的真實能力。通過解決原有基準的侷限性，OpenAI爲AI在軟件開發領域的應用提供了更精確的評估工具，有望推動相關技術的進一步發展和應用。

隨着AI技術在軟件工程中的應用日益廣泛，像SWE-bench Verified這樣的評估基準將在衡量和推動AI模型能力提升方面發揮重要作用。

地址：https://openai.com/index/introducing-swe-bench-verified/

1億周活見證印度躍升:Sam Altman 揭祕 OpenAI 全球第二大市場版圖