OpenAI於8月13日宣佈推出SWE-bench Verified代碼生成評估基準,旨在更準確評估人工智能模型在軟件工程任務中的表現。這一新基準解決了此前SWE-bench存在的多項侷限性。

SWE-bench是一個基於GitHub真實軟件問題的評估數據集,包含來自12個流行Python倉庫的2294個Issue-Pull Request對。然而,原版SWE-bench存在三個主要問題:單元測試過於嚴格,可能拒絕正確解決方案;問題描述不夠明確;開發環境難以可靠設置。

QQ截圖20240815145302.png

爲解決這些問題,SWE-bench Verified引入了容器化Docker環境的新評估工具包,使評估過程更加一致和可靠。這一改進顯著提升了AI模型的表現評分。例如,GPT-4o在新基準下解決了33.2%的樣本,而表現最佳的開源代理框架Agentless的得分也翻倍至16%。

這一性能提升表明,SWE-bench Verified能更好地捕捉AI模型在軟件工程任務中的真實能力。通過解決原有基準的侷限性,OpenAI爲AI在軟件開發領域的應用提供了更精確的評估工具,有望推動相關技術的進一步發展和應用。

隨着AI技術在軟件工程中的應用日益廣泛,像SWE-bench Verified這樣的評估基準將在衡量和推動AI模型能力提升方面發揮重要作用。

地址:https://openai.com/index/introducing-swe-bench-verified/