在今天的2025小米人車家全生態合作伙伴大會上,小米新任 Xiaomi MiMO 大模型負責人羅福莉首次亮相,正式發佈了最新的 MoE(Mixture of Experts)大模型 ——MiMo-V2-Flash。這一全新的模型被認爲是小米在實現人工通用智能(AGI)目標上的第二步。
羅福莉在社交媒體上詳細介紹了 MiMo-V2-Flash 的技術架構。該模型採用了 Hybrid SWA 架構,這種設計既簡單又優雅,並且在長上下文推理方面,表現明顯優於其他線性注意力變體。值得一提的是,窗口大小128被認爲是最佳選擇,過大的窗口反而會降低模型性能。同時,固定的 KV 緩存設計提高了與現有基礎設施的兼容性。
此外,羅福莉還談到了一項關鍵技術 —— 多標記預測(MTP)。通過採用 MTP,模型在高效的強化學習(RL)中取得了顯著的提升。即使在第一層以外,MTP 也只需要少量微調,就能實現較高的接受長度。三層 MTP 在編程任務中的表現更是突出,實現了接受長度大於3,並且速度提升約2.5倍,這有效解決了小批量 On-Policy RL 中的 GPU 空轉問題。
在後訓練階段,小米採用了 Thinking Machine 提出的 On-Policy Distillation,旨在融合多個 RL 模型。通過這一方法,小米成功地在傳統的 SFT 和 RL 流程中,計算量僅爲其1/50的情況下達到了教師模型的性能。這一過程顯示出學生模型不斷進化的潛力,最終形成自我強化的閉環。
羅福莉表示,團隊在短短几個月內將這些理念轉化爲可上線的生產系統,展現了非凡的效率與創造力。
劃重點:
🌟 MiMo-V2-Flash 是小米在實現 AGI 目標的第二步,具備先進的 MoE 架構。
⚡ 採用的多標記預測技術顯著提升了模型性能與速度。
💡 後訓練階段融合多個 RL 模型,展現出強大的自我強化能力。
