今朝、マイクロソフトはその最新のイノベーション小パラメータモデル「Mu」を正式にリリースしました。 このモデルはパラメータ数が3億3000万にとどまりますが、マイクロソフトが以前にリリースしたPhi-3.5-miniと同等の性能を持ち、そのサイズはPhi-3.5-miniの10分の1に過ぎません。さらに注目すべきは、MuがオフラインNPU搭載ノートPCで1秒間に100トークン以上の応答速度を実現できることです。これは小パラメータモデルの分野において非常に珍しい突破です。

Muモデルの大きな特徴は、Windowsでスマートエージェントを設定できることです。ユーザーは自然言語の指示を出すだけで、スマートエージェントがリアルタイムでシステム操作に変換されます。たとえば、「マウスカーソルを大きくして、画面の明るさを調整してください」という一言で、スマートエージェントが正確に位置を特定し、ワンクリックで設定を調整できます。これにより、Windowsシステムの使いやすさが大幅に向上しています。

QQ20250624-092718.png

Muアーキテクチャ:小規模ローカル配備の優れた最適化

Muモデルは、マイクロソフトが以前にリリースしたPhi Silicaモデルを参考にし、小規模なローカル配備を目的として最適化されています。特にNPU搭載のCopilot+ PCに適しています。そのコアアーキテクチャはデコード専用のTransformerであり、以下の3つの革新が導入されています:

  • 二重レイヤーノーマライゼーション(Dual Layer Normalization): Transformerアーキテクチャの各サブレイヤーの前後でLayerNorm操作をそれぞれ適用することで、活性値の分布の統計的特性を効果的に保証し、トレーニングプロセスの安定性を大幅に向上させます。これにより、深いネットワークでよくあるトレーニングの不安定性問題を回避し、トレーニング効率を高め、リソース消費を削減します。
  • 回転位置埋め込み(Rotary Position Embedding, RoPE): 伝統的な絶対的位置埋め込みとは異なり、RoPEは複素数領域の回転操作を導入し、位置符号を動的かつ拡張可能な関数マッピングに変えることで、トークン間の相対距離を直接表現できるようにします。これにより、長すぎるシーケンスを処理する際の性能低下問題を解決し、モデルに優れた長シーケンス外挿能力を提供します。
  • グループ化されたクエリアテンション(Grouped-Query Attention): この最適化は、従来のマルチヘッドアテンション機構におけるパラメータとメモリ使用量が多いという問題に対処するために設計されました。ヘッドグループ間でキー(Key)と値(Value)を共有することによって、アテンションパラメータの数とメモリ使用量を大幅に減少させ、NPUでの遅延と電力消費を下げ、モデルの実行効率を向上させます。また、ヘッドの多様性を維持することで、従来のマルチヘッドアテンション機構と同等の性能を確保します。

さらに、Muモデルは予熱安定減衰スケジュールやMuonオプティマイザなどの先進的なトレーニング技術を採用しており、性能をさらに最適化しています。マイクロソフトはA100 GPUを使用してMuをトレーニングし、Phiモデル開発で最初に導入された技術に従って、数百億の高品質な教育用トークン上で初期トレーニングを行い、言語の文法、意味、世界の知識を学習しました。さらに精度を高めるために、MuはPhiモデルから知識蒸留を行っており、パラメータ数がPhi-3.5-miniの10分の1であるにもかかわらず、同じような性能を達成しています。

QQ20250624-092718.png

Windowsスマートエージェントへの支援:低遅延と高精度の完璧な統合

Windowsシステムの使いやすさを向上させるため、マイクロソフトは自然言語を理解し、システム設定をスムーズに変更できるAIスマートエージェントの構築に尽力してきました。マイクロソフトは、Muモデル駆動のスマートエージェントを既存の検索ボックスに統合し、ユーザー体験をスムーズにすることを目指しています。そのためには、多くの設定に対して超低遅延の応答が必要です。