2月24日,360智腦團隊與北京大學聯合研發的中等量級推理模型 Tiny-R1-32B-Preview 正式發佈。這一模型僅以5%的參數量,成功逼近了 Deepseek-R1-671B 的滿血性能,展現了小模型在高效推理領域的巨大潛力。
該模型在多個關鍵領域的表現尤爲突出。在數學領域,Tiny-R1-32B-Preview 在 AIME2024評測中取得了78.1分的成績,與原版 R1模型的79.8分相當接近,遠超 Deepseek-R1-Distill-Llama-70B 的70.0分。在編程和科學領域,該模型分別在 LiveCodeBench 和 GPQA-Diamond 測試中取得了61.6分和65.0分的成績,全面領先於當前最佳開源70B模型 Deepseek-R1-Distill-Llama-70B。這一成果不僅證明了 Tiny-R1-32B-Preview 在性能上的卓越表現,還通過僅需5%的參數量大幅降低了推理成本,實現了效率的躍遷。
這一突破背後的核心技術是“分治-融合”策略。研究團隊基於 DeepSeek-R1生成海量領域數據,分別訓練了數學、編程、科學三大垂直領域的模型。隨後,通過 Arcee 團隊的 Mergekit 工具進行智能融合,突破了單一模型的性能上限,實現了多任務的均衡優化。這種創新的技術路徑不僅提升了模型的性能,也爲未來推理模型的發展提供了新的思路。
360智腦團隊和北京大學的聯合研發團隊表示,Tiny-R1-32B-Preview 的成功離不開開源社區的支持。該模型受益於 DeepSeek-R1蒸餾、DeepSeek-R1-Distill-32B 增量訓練以及模型融合等技術。
爲了推動技術普惠,研發團隊承諾將公開完整的模型倉庫,包括技術報告、訓練代碼及部分數據集。模型倉庫已上線至 Hugging Face 平臺,地址爲 https://huggingface.co/qihoo360/TinyR1-32B-Preview。