字節跳動開源Multi-SWE-bench，推動大模型代碼智能升級

近日，字節跳動豆包大模型團隊宣佈開源Multi-SWE-bench，這是業內首個多語言代碼修復基準數據集，爲大模型“自動修Bug”能力的評估與提升帶來新突破。

在大模型技術快速發展的當下，代碼生成任務成爲檢驗模型智能的關鍵領域。以SWE-bench爲代表的代碼修復基準，雖能衡量模型的編程智能，但存在明顯侷限。其僅聚焦Python語言，無法評估模型跨語言泛化能力;且任務難度有限，難以覆蓋複雜開發場景，制約了大模型代碼智能的進一步發展。

面向不同模型代碼能力評測分數

Multi-SWE-bench應運而生，它在SWE-bench基礎上實現重大跨越，首次覆蓋Java、TypeScript、C、C++、Go、Rust和JavaScript等7種主流編程語言，構建了1632個源於真實開源倉庫的修復任務。這些任務經過嚴格篩選與人工驗證，確保質量可靠。同時，Multi-SWE-bench引入難度分級機制，分爲簡單、中等、困難三類，能更全面評估模型在不同能力層次的表現。

基於該數據集的實驗顯示，當前大語言模型在Python修復上表現尚可，但處理其他語言時平均修復率不足10%，凸顯多語言代碼修復仍是大模型面臨的挑戰。

部分主流模型在 Python 上表現更爲優異，面向其他語言則分數不佳。同時，隨着任務難度增加，模型修復率呈現逐級下降趨勢。

爲配合強化學習在自動編程領域的應用，團隊還同步開源了Multi-SWE-RL，提供4723個實例及配套的可復現Docker環境，支持一鍵啓動、自動評估等功能，爲RL訓練打造了標準化數據基礎。此外，團隊啓動開源社區計劃，誠邀開發者和研究者參與數據集擴展、新方法評測等工作，共同推進RL for Code生態建設。

字節跳動豆包大模型團隊表示，希望Multi-SWE-bench能推動自動編程技術邁向新高度，未來將持續拓展其覆蓋範圍，助力大模型在“自動化軟件工程”領域取得更大進展。

字節跳動開源Multi-SWE-bench，推動大模型代碼智能升級

相關推薦

字節跳動發佈豆包大模型1.6：首個支持可調思考深度的國產模型

字節跳動的豆包大模型：日均調用超30萬億tokens，增長勢頭驚人！

火山引擎發佈四款強大大模型，語音合成與復刻功能再升級

火山引擎發佈豆包大模型1.6升級版，日均 Tokens 調用量突破30萬億!

特斯拉接入豆包DeepSeek 可通過語音指令直接喚醒