2025年今日の「小米人車家全生態パートナーアカデミー」において、小米の新任Xiaomi MiMO大モデル責任者であるロ・フーリーが初めて登場し、最新のMoE(Mixture of Experts)大モデルであるMiMo-V2-Flashを正式に発表しました。この新しいモデルは、小米が人工汎用知能(AGI)目標に向かうための第二歩とされています。

ロ・フーリーはSNSでMiMo-V2-Flashの技術的な構造について詳しく紹介しました。このモデルはHybrid SWAアーキテクチャを採用しており、設計はシンプルかつエレガントで、長文の推論において他の線形アテンションのバリエーションよりも顕著な性能を示しています。注目すべき点として、128のウィンドウサイズが最適な選択肢であり、より大きなウィンドウサイズはモデルのパフォーマンスを低下させる可能性があることが挙げられます。また、固定されたKVキャッシュ設計により、既存のインフラストラクチャとの互換性が向上しています。

さらにロ・フーリーは、重要な技術であるマルチタグ予測(MTP)についても語りました。MTPを採用することにより、効率的な強化学習(RL)において顕著な改善が得られました。第一層以外でも、MTPはわずかな微調整で高い受け入れ長さを実現できます。3層のMTPはプログラミングタスクにおいて特に優れた性能を示し、受け入れ長さが3以上となり、速度は約2.5倍向上します。これは小規模なOn-Policy RLにおけるGPUの無駄な待機時間を効果的に解決するものです。

後処理段階において、小米はThinking Machineが提案したOn-Policy Distillationを採用し、複数のRLモデルを統合することを目指しました。この方法を通じて、小米は従来のSFTおよびRLプロセスにおいて、計算量をその1/50に抑えることによって教師モデルの性能に達成できました。このプロセスは学生モデルの進化の潜在力を示しており、最終的には自己強化のループを形成します。

ロ・フーリーは、チームが数か月の間にこれらのアイデアを運用可能な生産システムに変換したことを述べ、驚くべき効率と創造性を示したと語っています。

ポイント:

🌟 MiMo-V2-Flashは、小米がAGIの目標に向かうための第二歩であり、先進的なMoEアーキテクチャを備えています。

⚡ 多タグ予測技術はモデルのパフォーマンスとスピードを大幅に向上させました。

💡 後処理段階で複数のRLモデルを統合し、強い自己強化能力を示しました。