月之暗面(Moonshot AI)宣佈推出其新開源模型 Kimi-Dev-72B,這一模型專注於軟件工程任務,並在 AI 編程基準測試 SWE-bench Verified 中創下了全球最高的開源模型成績。Kimi-Dev-72B 以僅72億參數量的設計,成功超越了剛發佈不久的 DeepSeek-R1,後者的參數量高達671億。
在 SWE-bench Verified 測試中,Kimi-Dev-72B 獲得了60.4% 的高分,成爲當前開源模型中的新標杆。該模型的優化過程包括大規模強化學習,使其能夠自動修復 Docker 環境中的真實存儲庫。Kimi-Dev-72B 在測試中僅在所有測試用例通過後才能獲得獎勵,從而確保所生成解決方案的正確性和穩健性,符合現實開發的高標準。
Kimi-Dev-72B 目前已在 Hugging Face 和 GitHub 平臺上開放下載,用戶可獲取模型權重、源代碼,技術報告也即將發佈。Hugging Face 鏈接爲:huggingface.co/moonshotai/Kimi-Dev-72B,GitHub 鏈接爲:github.com/MoonshotAI/Kimi-Dev。
在設計理念方面,Kimi-Dev-72B 結合了 BugFixer 和 TestWriter 的雙重角色。BugFixer 負責修復錯誤,TestWriter 則編寫相應的單元測試。這兩個部分相互補充,確保模型在編程任務中的有效性。Kimi-Dev-72B 的工作流程簡單明確,主要分爲文件本地化和代碼編輯兩個階段。
爲了增強模型的能力,月之暗面使用了約1500億個高質量數據進行中期訓練,數據來自 GitHub 的真實問題和 PR 提交。通過嚴格的數據淨化,該模型能夠學習人類開發者如何解決問題並編寫代碼。強化學習階段則重點提升其代碼編輯能力,通過基於結果的獎勵系統,逐步優化模型的表現。
在測試環節,Kimi-Dev-72B 能夠協調 BugFixer 和 TestWriter 的角色,採用自我博弈機制,從而提升模型的性能和效果。每個問題最多可以生成40個補丁候選和測試候選,顯示了自博弈機制的強大效應。
未來,月之暗面計劃進一步擴展 Kimi-Dev-72B 的功能,探索與流行開發工具的深度集成,使其更無縫地融入開發者的工作流程。公司承諾將持續改進這一模型,進行嚴謹的紅隊測試,以便向社區推出更強大的版本。
Hugging Face地址:huggingface.co/moonshotai/Kimi-Dev-72B
GitHub地址:github.com/MoonshotAI/Kimi-Dev
劃重點:
🔍 Kimi-Dev-72B 是新發布的開源模型,創下了編程基準測試的全球最高分。
🚀 該模型結合了 BugFixer 和 TestWriter 的功能,以提升編程效率和代碼質量。
💡 月之暗面將繼續優化 Kimi-Dev-72B,未來計劃與流行開發工具進行更深入的整合。