全球知名科技公司小米正式發佈其首個針對推理(Reasoning)而生的大型開源模型 ——Xiaomi MiMo。該模型旨在解決當前預訓練模型在推理能力上的瓶頸,探索如何更有效地激發模型的推理潛能。MiMo 的推出標誌着小米在人工智能領域的一次重要嘗試,尤其是在數學推理和代碼競賽方面,表現出色。
** Xiaomi MiMo 的顯著優勢 **
據小米介紹,MiMo 在數學推理(AIME24-25)和代碼競賽(LiveCodeBench v5)的公開測評中,僅以7億參數的規模便超越了 OpenAI 的閉源推理模型 o1-mini 和阿里巴巴的開源推理模型 QwQ-32B-Preview。此成績不僅彰顯了 MiMo 在推理任務上的優越性能,更爲行業樹立了新的標杆。
隨着 DeepSeek-R1的推出,強化學習(RL)在業界引發了共創潮流。MiMo-7B 在相同的強化學習訓練數據條件下,其在數學與代碼領域的推理能力明顯領先於現有的經典開源32B 模型,如 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。這樣的成績不僅展示了小米在算法和模型訓練上的創新能力,更爲其未來的 AI 發展奠定了堅實基礎。
** 獨特的訓練方法推動推理能力提升 **
MiMo 的推理能力提升源於預訓練與後訓練階段的多層面創新。在預訓練階段,MiMo 通過整合豐富的推理語料,合成了約200B tokens 的推理數據。訓練過程中,小米採取了三階段訓練的方法,逐步增加訓練難度,總共訓練了25T tokens,以確保模型在複雜推理任務上的表現。
在後訓練階段,小米則聚焦於高效且穩定的強化學習算法和框架。通過引入 “測試難度驅動獎勵”(Test Difficulty Driven Reward)策略,MiMo 有效解決了在困難算法問題中獎勵稀疏的問題。同時,採用 “簡單數據重採樣”(Easy Data Re-Sampling)策略,提升了強化學習訓練的穩定性和有效性。爲了加速訓練過程,小米還設計了無縫回放系統,使得 RL 訓練速度提高了2.29倍,驗證速度提升了1.96倍。
** 全面開源與未來展望 **
小米 MiMo 全系列的模型已開源至 HuggingFace 平臺,用戶可以方便地訪問和使用這一前沿技術,具體鏈接爲:[HuggingFace MiMo-7B](https://huggingface.co/XiaomiMiMo)。小米表示,MiMo 是其全新成立的大模型核心團隊的初步嘗試,儘管2025年似乎是大模型發展的後半程,但小米始終相信,通往通用人工智能(AGI)的道路仍然漫長且充滿挑戰。
小米將繼續秉持務實創新的原則,勇敢探索未知領域,以思考突破智能的邊界,迴應每一次的好奇心。通過 MiMo,小米不僅希望推動人工智能技術的發展,更希望在未來的智能生活中,爲用戶帶來更多可能性。