在軟件工程領域,崑崙萬維於6月20日正式發佈了其自主研發的代碼智能體基座模型 Skywork-SWE-32B,並將其開源。該模型在軟件工程任務中表現卓越,成爲業界在32B 參數規模下最強的代碼修復能力模型。崑崙萬維團隊通過構建超過1萬個可驗證的 GitHub 倉庫任務實例,創造了目前規模最大的可驗證數據集,系統地驗證了大模型在軟件工程任務上的數據縮放定律。
Skywork-SWE-32B 在 SWE-bench Verified 基準上取得了38.0% 的 pass@1準確率,這一成績刷新了 Qwen2.5-Coder-32B 系列模型在 OpenHands 代碼框架下的最佳記錄。通過引入測試時擴展技術,該模型的表現進一步提升至47.0% 的準確率,不僅超過了目前在32B 參數規模以下的開源模型,也縮小了與一些閉源模型之間的性能差距。
崑崙萬維團隊針對當前市場上 SWE 任務的主流數據集存在的問題,建立了一套三階段的自動化流程來收集和驗證訓練數據。在數據採集階段,他們通過 GitHub API 抓取了超過15萬個開源倉庫的信息,並通過一系列嚴格的篩選步驟,最終保留了23,389個任務樣本。在驗證階段,團隊使用統一命令生成和 Docker 環境構建技術,確保每個任務樣本的有效性,最終生成了10,169條高質量樣本。
在智能體軌跡生成階段,團隊使用開源的 OpenHands 框架,結合商用大模型作爲基座,對每個任務執行了多輪交互,全面記錄智能體的解決過程。最終,他們構建出8,209條高質量的驗證通過軌跡,爲 Skywork-SWE-32B 的訓練提供了堅實基礎。
Skywork-SWE-32B 的成功發佈,爲軟件工程智能體的發展注入了新的活力,展現了其在處理複雜開發場景下的能力與潛力。
博客地址🔗
https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
HuggingFace地址🔗
https://huggingface.co/Skywork/Skywork-SWE-32B
劃重點:
🌟 Skywork-SWE-32B 模型在 SWE-bench Verified 基準上取得38.0% 的 pass@1準確率,刷新了現有32B 開源模型的最佳成績。
📈 引入測試時擴展技術後,模型的準確率提升至47.0%,顯著縮小了與閉源模型的性能差距。
🔍 崑崙萬維建立了自動化流程,構建出超1萬條高質量、可驗證的 SWE 任務數據集,爲模型的訓練奠定了基礎。