近日,360智腦團隊宣佈成功復現Deepseek的強化學習效果,並正式發佈開源推理模型 Light-R1-14B-DS。該模型性能表現超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成爲業界首款在14B參數規模上實現強化學習效果的模型,顯著提升了數學推理能力,成績超過大多數32B級別模型。
與 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在數學競賽任務中表現突出:在 AIME24測試中提升4.3分,在 AIME25中更是提高10分。此外,在數學推理任務 GPQA 上,該模型取得61.7分 的優異成績。
爲實現這一突破,360智腦團隊採用了兩種創新訓練方法。首先是 Curriculum SFT(漸進式監督微調),通過分階段訓練,讓模型從簡單數學問題逐步過渡到複雜問題,進一步增強邏輯推理能力。其次是 強化學習(RL),首次在14B級別推理模型上成功應用,不僅提升推理準確率,還確保其他技能基本無損。
此次發佈不僅包括模型本身,還開源了 SFT數據、代碼及技術報告,爲業界提供了寶貴資源。這一成果標誌着中小規模模型在強化學習領域的重大進展,或將推動AI推理能力的進一步普及與發展。
項目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
數據地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData