アリババ国際デジタルビジネスチームは、Marco-MoEシリーズモデルに新たなメンバーとして「Marco-Mini-Instruct」を発表しました。このモデルは、より小さなパラメータで大きな効率を実現するという「小で大を制す」理念を再び示しています。このモデルの総パラメータ数は173億個ですが、アクティブなパラメータ数はわずか0.86億個(約5%)であり、推論効率が非常に高く、通常のCPUでもスムーズに動作します。

QQ20260410-102324.png

極めて軽量: CPUでも高速に動作

公式の推定によると、8ビット量化と4本のDDR4 2400メモリを使用すれば、このモデルの推論速度は約30トークン/秒になります。この性能により、MoE構造は「誰もが使える」段階へと進化し、ローカルでの導入ハードルが大幅に低下しました。

コアイノベーション: Upcycling技術「石から金を産み出す」

Marco-Mini-Instructの最大の特徴はパラメータ数や速度ではなく、その生成方法です。このモデルはゼロから訓練されたものではなく、Qwen3-0.6B-Baseモデルをupcycling技術によって変換して作られました。

QQ20260410-102335.png

具体的なプロセスは、Denseな小規模モデルの一部のモジュールを複数のエキスパート(expert)に分割またはコピーし、ルーティング機構を導入することです。同時に細粒度のサブマトリクス分割Drop-Upcycling戦略(トレーニング中に一定の確率で一部のエキスパートやルーティング経路をランダムに削除し、正則化を追加してロバスト性を向上させる)を組み合わせることで、純粋なDenseモデルからMoE構造へのスムーズなアップグレードを実現しました。この方法は業界にとってコストが低く、効率的なMoE開発の新しい道を提示しています。

文脈とトレーニング設定の詳細

モデルのconfigではmax_position_embeddingsが32Kまで拡張されていますが、SFTフェーズでは実際には8192トークンの文脈が使用されているため、デフォルトの文脈長さは多くの実際のアプリケーションシナリオに適しています。

後処理の特徴: カスケードOn-Policy蒸留

後処理プロセスも目覚ましいものです。まずSFTのウォームアップを行い、その後カスケードOn-PolicyDistillation戦略を使用します。最初にQwen3-30B-A3B-Instructを教師モデルとして蒸留し、次にさらに強力なQwen3-Next-80B-A3B-Instructに切り替えます。蒸留データは命令の遵守、複雑な推論、整合性と安全性、数学的能力など多方面をカバーしており、モデルが効率を保ちつつ全体的な知能レベルを大幅に向上させることを確保します。

性能テスト: 0.86Bの活性パラメータが4B級のDenseモデルを圧倒

最終的に公開されたMarco-Mini-Instructは、ほとんどの主要ベンチマークにおいて、わずかな0.86Bの活性パラメータでQwen3-4Bなどの多数のDenseモデルを上回りました。これは、MoE構造が「小さくて美しい」道のりにおいて持つ巨大な可能性を十分に証明しています。

業界上の意味: オープンソースのMoE開発新パターン

AIbaseは、この成果の最大の価値が広い開発者たちに新しい扉を開いたことであると考えています。つまり、大量のMoEモデルをゼロからトレーニングする必要はなく、適切なDenseな小規模モデルを選択し、論文で提示されたupcycling + Drop-Upcyclingプロセスを厳密に再現するだけでよいのです。このトレーニングコストは制御可能です。SFT段階では64GPU×24時間、蒸留段階では64GPU×110時間で済むため、中小チームがMoEに挑戦するハードルが大幅に低下しました。

アリババによるこの「魔改」は、モデルの効率の飛躍が必ずしもパラメータの増加に依存しないことを再度証明しました。イノベーションしたトレーニング方式も質的な飛躍をもたらすことができます。Marco-Mini-Instructのリリースは、MoE技術がエッジデバイスや個人開発者のシナリオでの導入を加速するものであり、業界全体が継続的に注目すべきものです。