在科技發展的浪潮中,人工智能(AI)技術日新月異。最近,由著名大模型訓練平臺 Together AI 和智能體平臺 Agentica 聯合開源的新模型 DeepCoder-14B-Preview,吸引了廣泛關注。
該模型以僅有的140億參數,在代碼測試平臺 LiveCodeBench 上的得分爲60.6%,超過了 OpenAI 的 o1模型(59.5%),僅略低於 o3-mini(60.9%)。這一成績在 Codeforces 和 AIME2024的評測中也表現出色,與 o1和 o3-mini 不相上下。
DeepCoder 不僅僅是一個新模型,其開源內容豐富,包含了模型權重、訓練數據集、訓練方法、訓練日誌及優化策略等,極大方便了開發者深入理解模型的開發流程。開源地址和相關的 GitHub 鏈接均已公佈,便於有興趣的開發者進行探索和研究。
DeepCoder 是在 Deepseek-R1-Distilled-Qwen-14B 基礎上,通過分佈式強化學習(RL)進行微調而成。爲了構建高質量的訓練數據集,研究團隊收集了24,000個可驗證的編程問題,並通過程序驗證、測試過濾和去重等步驟確保數據質量。所有問題均通過外部官方解決方案進行驗證,並滿足嚴格的單元測試標準。
在代碼強化學習訓練過程中,DeepCoder 使用了兩種沙盒環境來執行單元測試並計算獎勵。Together Code Interpreter 環境高效且可擴展,能夠支持大量併發沙盒,另外一個本地代碼沙盒則確保了與現有排行榜的一致性。
DeepCoder 在獎勵函數設計上採用了稀疏結果獎勵模型,確保模型專注於生成高質量代碼,而非通過記憶測試用例獲取獎勵。同時,爲了實現更穩定的訓練過程,模型採用了改進版的 GRPO 算法,並引入了迭代上下文擴展技術,顯著提高了模型的推理能力。
爲了加速端到端的 RL 訓練,DeepCoder 團隊還開源了優化擴展 verl-pipeline,通過一次性流水線技術,使訓練、獎勵計算和採樣的過程完全流水化,大大提高了訓練效率。
儘管 DeepCoder 剛剛開源,然而網友們對其表現非常讚賞,認爲其是一個值得期待的開源項目。Together AI 成立於2022年,致力於提供高性能的 AI 模型和服務,最近還獲得了3.05億美元的融資,顯示出其在行業中的強勁勢頭。
開源地址:https://huggingface.co/agentica-org/DeepCoder-14B-Preview
github:https://github.com/agentica-project/rllm
劃重點:
🌟 DeepCoder-14B-Preview 模型表現優秀,得分超過 OpenAI 的 o1模型。
📈 開源內容豐富,包括模型權重和訓練數據,方便開發者研究。
⚙️ 採用多種技術確保數據質量和訓練效率,顯著提升了模型性能。