2025年4月30日,小米公司宣佈開源其首個爲推理(Reasoning)而生的大模型「Xiaomi MiMo」。這一模型的發佈標誌着小米在人工智能領域邁出了重要的一步,特別是在推理能力的提升上取得了顯著進展。
「Xiaomi MiMo」的誕生旨在探索如何激發模型的推理潛能,特別是在預訓練增長見瓶頸的情況下。該模型在數學推理(AIME24-25)和代碼競賽(LiveCodeBench v5)公開測評集上表現出色,僅用7B的參數規模就超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規模的開源推理模型QwQ-32B-Preview。
在強化學習方面,MiMo-7B的潛力顯著領先於其他廣泛使用的強化學習起步模型,如DeepSeek-R1-Distill-7B和Qwen2.5-32B。這一成就得益於MiMo在預訓練和後訓練階段的多層面創新。在預訓練階段,MiMo着重挖掘富推理語料,併合成了約200B tokens的推理數據。訓練過程中,MiMo進行了三階段訓練,逐步提升訓練難度,總訓練量達到25T tokens。
在後訓練階段,MiMo的核心是高效穩定的強化學習算法和框架。爲此,MiMo提出了Test Difficulty Driven Reward策略,以緩解困難算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling策略,以穩定RL訓練。此外,MiMo還設計了Seamless Rollout系統,使得RL訓練加速2.29倍,驗證加速1.96倍。
MiMo-7B全系列已開源,用戶可在HuggingFace上找到相關模型:[XiaomiMiMo](https://huggingface.co/XiaomiMiMo)。