正文

OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能

發布於AI新閒資訊

時間 :Feb 18, 2025

閱讀 :1分鐘

在軟件工程領域，隨着挑戰的不斷演變，傳統的基準測試方法顯得力不從心。自由職業的軟件工程工作複雜多變，遠不止是孤立的編碼任務。自由職業工程師需要處理整個代碼庫，集成多種系統，並滿足複雜的客戶需求。而傳統的評估方法通常側重於單元測試，無法充分反映全棧性能和解決方案的實際經濟影響。因此，開發更爲真實的評估方法顯得尤爲重要。

爲此，OpenAI 推出了 SWE-Lancer，一個針對真實世界自由軟件工程工作進行模型性能評估的基準測試。該基準測試基於來自 Upwork 和 Expensify 存儲庫的1400多個自由職業任務，總支付金額達到100萬美元。這些任務從小的 bug 修復到大型功能實現應有盡有。SWE-Lancer 旨在評估個別代碼補丁及管理決策，要求模型從多個選項中選擇最佳提案。這種方法更好地反映了真實工程團隊的雙重角色。

SWE-Lancer 的一大優勢在於使用端到端測試，而非孤立的單元測試。這些測試經過專業軟件工程師精心設計和驗證，能夠模擬從問題識別、調試到補丁驗證的整個用戶工作流程。通過使用統一的 Docker 鏡像進行評估，基準測試確保每個模型在相同的受控條件下進行測試。這種嚴格的測試框架有助於揭示模型解決方案是否足夠穩健，適合實際部署。

SWE-Lancer 的技術細節設計巧妙，真實地反映了自由職業工作的實際情況。任務要求對多個文件進行修改，並與 API 集成，涉及移動和 Web 平臺。除了生成代碼補丁，模型還需要審查並選擇競爭提案。這種對技術與管理技能的雙重關注，體現了軟件工程師的真實職責。同時，包含的用戶工具模擬真實用戶互動，進一步增強了評估，鼓勵迭代調試和調整。

通過 SWE-Lancer 的結果，研究人員能夠深入瞭解當前語言模型在軟件工程領域的能力。在個體貢獻任務中，像 GPT-4o 和 Claude3.5Sonnet 這樣的模型的通過率分別爲8.0% 和26.2%。而在管理任務中，表現最佳的模型達到了44.9% 的通過率。這些數據表明，儘管最先進的模型能夠提供有希望的解決方案，但仍然有很大的提升空間。

論文:https://arxiv.org/abs/2502.12115

劃重點:
💡 ** 創新評估方法 **:SWE-Lancer 基準測試通過真實的自由職業任務，提供了更具真實性的模型性能評估。
📈 ** 多維度測試 **:使用端到端測試代替單元測試，更好地反映軟件工程師在真實工作中的複雜性。
🚀 ** 提升潛力 **:現有模型雖然表現出色，但通過更多嘗試和計算資源仍有提升的空間。

AI 安全性與有效性測試存在嚴重缺陷，引發專家關注

英國與多所頂尖大學專家研究發現，440多個AI模型安全評估基準幾乎都存在缺陷，可能削弱結果有效性，甚至產生誤導性評分，影響AI安全評估的可靠性。

Nov 4, 2025

101.1k

專家揭示數百項 AI 安全測試存在嚴重缺陷

英國科學家研究發現，當前AI模型安全測試存在廣泛缺陷。分析440多個基準測試後發現，幾乎所有測試都存在可能影響結論有效性的弱點。該研究由牛津大學等機構聯合開展。

Nov 4, 2025

99.2k

紅杉中國推出全新 AI 基準測試工具，助力智能體評估新標準

隨着人工智能技術的迅速發展，尤其是大型模型的不斷進步，基準測試在評估 AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀，紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估，還引入了動態更新機制，確保測試的有效性和公正性。xbench 的推出源於紅杉中國在2022年 ChatGPT 發佈後對 AGI（通用人工智能）進程的關注。隨着智能體(Agent)在各個領域的廣泛應用，傳統的靜態基準測試方法顯得捉襟見肘，難以準確反映模型的實際能力

May 26, 2025

240.8k

OpenAI推出AI Agent評測基準PaperBench

OpenAI 團隊推出了一個名爲 PaperBench 的基準測試，旨在評估AI代理在複製先進 AI 研究方面的能力。該測試要求 AI 代理從頭開始複製20篇2024年國際機器學習會議（ICML）中的重點和口頭論文，整個過程涉及理解論文貢獻、開發代碼庫以及成功執行實驗。爲確保評估的客觀性，研究人員設計了詳細的評分標準。這些標準將每項複製任務分解爲多個層級的子任務，並設定明確的評分標準。PaperBench 一共包含8316個可以單獨評分的任務，所有評分量規均與每篇論文的作者合作開發，以保證其準確性和真

Apr 3, 2025

259.5k

OpenAI 最新研究揭示：最先進的 AI 仍難以解決編碼問題

近日，OpenAI 的研究人員在一篇新發布的論文中坦言，儘管目前的 AI 技術已經相當先進，但這些模型依然無法與人類程序員相媲美。OpenAI 首席執行官山姆・阿爾特曼曾表示，預計到今年底，AI 將能夠戰勝 “低級” 軟件工程師，但研究結果卻顯示，這些 AI 模型仍然面臨重大挑戰。圖源備註：圖片由AI生成，圖片授權服務商Midjourney在研究中，OpenAI 團隊使用了一種名爲 SWE-Lancer 的新基準測試，評估了從自由職業網站 Upwork 上提取的1400多項軟件工程任務的表現。該測試重點考察了三個大型語言模

Feb 24, 2025

190.2k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

​OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能

相關推薦