近日,螞蟻技術團隊宣佈正式開源其輕量級推理模型Ring-lite。該模型在多項推理榜單上取得了顯著成績,實現了輕量級推理模型的SOTA效果,再次驗證了MoE架構的推理潛力。

Ring-lite以螞蟻技術此前發佈的Ling-lite-1.5爲起點,該模型採用MoE架構,總參數爲16.8B,但激活參數僅2.75B。憑藉獨創的C3PO強化學習訓練方法,Ring-lite在AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等多項推理榜單上表現優異,比肩3倍激活參數大小的10B以下Dense模型。

在技術實現上,Ring-lite團隊進行了多項創新。首創的C3PO強化學習訓練方法有效解決了RL訓練中回覆長度波動導致的優化難題,顯著改善了訓練不穩定和吞吐波動問題。同時,團隊還探討了Long-CoT SFT與RL的黃金訓練比重,從token efficiency角度提出了基於entropy loss來平衡訓練效果和樣本效率的方案,進一步提升了模型性能。

微信截圖_20250621162245.png

此外,Ring-lite還直面了多領域數據聯合訓練的難題,系統驗證了混合訓練與分階段訓練的優劣邊界,在數學、代碼、科學三重領域實現了協同增益。在多項複雜推理任務中,Ring-lite均展現出了出色的性能,尤其在數學推理和編程競賽方面,得分領先於對比模型。

爲了驗證Ring-lite的實際應用效果,團隊還進行了高考數學和物理題的測試。結果顯示,Ring-lite在數學全國一卷上可以獲得130分左右的成績,表現優異。

螞蟻技術團隊表示,Ring-lite的開源不僅包含了模型權重和訓練代碼,還將逐步公開所有訓練數據集、超參配置乃至實驗記錄。這可能是輕量級MoE推理模型首次實現全鏈路透明化,爲相關領域的研究人員提供了寶貴的參考資源。

GitHub:

https://github.com/inclusionAI/Ring

Hugging Face:

https://huggingface.co/inclusionAI/Ring-lite

ModelScope:

https://modelscope.cn/models/inclusionAI/Ring-lite