12月5日,字節豆包大模型團隊推出了最新的代碼大模型評估基準——FullStack Bench,涵蓋了超11類真實場景,支持16種編程語言,幷包含3374個問題。這一基準相比之前的評估標準,在更廣泛的編程領域中能更準確地評估大模型的代碼開發能力,推動了模型在現實世界編程任務中的優化。

目前的主流代碼評估基準,如HumanEval和MBPP,通常集中在基礎和高級編程問題,而DS-1000則專注於數據分析和機器學習任務,且僅支持Python。xCodeEval則側重於高級編程和數學領域,存在較大的應用場景和語言覆蓋限制。相比之下,FullStack Bench在數據覆蓋方面顯著增強,囊括了超11個應用領域,並且涵蓋了更爲複雜多樣的編程場景。

QQ20241205-144253.png

FullStack Bench的數據集來源於全球最大編程問答平臺Stack Overflow,研究團隊從50萬個問題中篩選出前88.1%的應用領域,確保了數據集的廣泛性與魯棒性。每個問題都包括詳細的題目描述、參考解決方案和單元測試用例,確保評估準確性。團隊還通過AI與人工複覈對數據質量進行了交叉評估,進一步提高了數據的可靠性。

爲方便開發者使用這一數據集,字節豆包團隊還開源了代碼沙盒工具——SandboxFusion,支持多語言編程任務的高效執行。SandboxFusion兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言,能夠幫助開發者在不同環境中輕鬆進行大模型測試。

QQ20241205-144446.png

此外,字節豆包大模型團隊還首次展示了自家開發的代碼大模型——Doubao-Coder,並對全球20餘款代碼大模型進行了編程能力評測。字節在AI編程領域的不斷進展,特別是通過自研的代碼基座模型MarsCode,每月爲用戶貢獻百萬量級代碼,展現了其在這一領域的領先地位。

數據集開源地址:https://huggingface.co/datasets/ByteDance/FullStackBench

沙盒開源地址:https://github.com/bytedance/SandboxFusion

論文地址:https://arxiv.org/pdf/2412.00535v2