近日,字節跳動豆包大模型團隊宣佈開源Multi-SWE-bench,這是業內首個多語言代碼修復基準數據集,爲大模型“自動修Bug”能力的評估與提升帶來新突破。
在大模型技術快速發展的當下,代碼生成任務成爲檢驗模型智能的關鍵領域。以SWE-bench爲代表的代碼修復基準,雖能衡量模型的編程智能,但存在明顯侷限。其僅聚焦Python語言,無法評估模型跨語言泛化能力;且任務難度有限,難以覆蓋複雜開發場景,制約了大模型代碼智能的進一步發展。
面向不同模型代碼能力評測分數
Multi-SWE-bench應運而生,它在SWE-bench基礎上實現重大跨越,首次覆蓋Java、TypeScript、C、C++、Go、Rust和JavaScript等7種主流編程語言,構建了1632個源於真實開源倉庫的修復任務。這些任務經過嚴格篩選與人工驗證,確保質量可靠。同時,Multi-SWE-bench引入難度分級機制,分爲簡單、中等、困難三類,能更全面評估模型在不同能力層次的表現。
基於該數據集的實驗顯示,當前大語言模型在Python修復上表現尚可,但處理其他語言時平均修復率不足10%,凸顯多語言代碼修復仍是大模型面臨的挑戰。
部分主流模型在 Python 上表現更爲優異,面向其他語言則分數不佳。同時,隨着任務難度增加,模型修復率呈現逐級下降趨勢。
爲配合強化學習在自動編程領域的應用,團隊還同步開源了Multi-SWE-RL,提供4723個實例及配套的可復現Docker環境,支持一鍵啓動、自動評估等功能,爲RL訓練打造了標準化數據基礎。此外,團隊啓動開源社區計劃,誠邀開發者和研究者參與數據集擴展、新方法評測等工作,共同推進RL for Code生態建設。
字節跳動豆包大模型團隊表示,希望Multi-SWE-bench能推動自動編程技術邁向新高度,未來將持續拓展其覆蓋範圍,助力大模型在“自動化軟件工程”領域取得更大進展。