通義千問團隊近日宣佈開源其最新的Qwen2.5-Coder全系列,這一舉措旨在推動Open Code LLMs的發展。Qwen2.5-Coder以其強大、多樣和實用性受到關注。Qwen2.5-Coder-32B-Instruct模型在代碼能力上達到了SOTA水平,與GPT-4o相當,展現出全面的能力,包括代碼生成、代碼修復和代碼推理。它在多個代碼生成基準測試中取得了最佳表現,並在Aider基準測試中達到73.7分,與GPT-4o表現相當。
Qwen2.5-Coder支持超過40種編程語言,並在McEval上獲得65.9分,其中Haskell、Racket等語言的表現尤爲突出。這得益於其預訓練階段獨特的數據清洗和配比。此外,Qwen2.5-Coder-32B-Instruct在多編程語言的代碼修復能力上也表現出色,在MdEval基準測試中得分75.2,排名第一。
爲了檢驗Qwen2.5-Coder-32B-Instruct在人類偏好上的對齊表現,構建了一個內部標註的代碼偏好評估基準Code Arena。結果顯示Qwen2.5-Coder-32B-Instruct在偏好對齊方面具有優勢。
Qwen2.5-Coder系列此次開源了四個尺寸的模型,包括0.5B/3B/14B/32B,覆蓋了主流的六個模型尺寸,滿足不同開發者的需求。官方提供了Base和Instruct兩種模型,前者作爲開發者微調模型的基礎,後者作爲官方對齊的聊天模型。模型尺寸與效果之間存在正相關,Qwen2.5-Coder在所有尺寸下都取得了SOTA表現。
Qwen2.5-Coder的0.5B/1.5B/7B/14B/32B模型採用Apache2.0許可,而3B模型爲Research Only許可。團隊通過評估不同尺寸的Qwen2.5-Coder在所有數據集上的表現,驗證了Scaling在Code LLMs上的有效性。
Qwen2.5-Coder的開源,爲開發者提供了一個強大、多樣化且實用的編程模型選擇,有助於推動編程語言模型的發展和應用。
Qwen2.5-Coder模型鏈接:
https://modelscope.cn/collections/Qwen25-Coder-9d375446e8f5814a