大規模モデルの軍備競争により、計算力コストが非常に高くなっている中、前OpenAIのCTOであるMira Muratiが率いるThinking Machines Labは、「オンライン戦略蒸留(On-Policy Distillation)」という画期的な技術を用いて、業界に「再起動」をかけている。最新の研究によると、わずか80億パラメータの小規模モデルでもこの方法で訓練すると、32Bの大規模モデルの70%の性能を得ることができ、トレーニングコストは90%も低下し、効率は50〜100倍向上する——これは中小企業や個人開発者にとって、巨頭と同等の専用AIを極めて低コストで訓練できるという意味だ。
50〜100倍の効率向上:150ステップで1.8万GPU時間を上回る
従来の強化学習(RL)では何万ステップもの反復と膨大な計算力が必要になる。数学的推論タスクのAIME'24を例にすると、純粋なRL方法では17,920 GPU時間かかり、正確率は68%にとどまる。一方、オンライン戦略蒸留を採用したQwen3-8Bモデルでは、わずか150ステップで70%の正確率を達成し、計算コストはほぼ無視できるほどだ。

そのコアとなるのは「各トークンごとの密なフィードバック」メカニズムである。RLはラウンド終了時にのみ疎な報酬を与えるのに対し、オンライン蒸留では教師モデルが学生が生成したすべてのトークンに対してリアルタイムで評価を行い、継続的で正確な指導信号を提供する。これにより収束が速まり、長文のトレーニングにおける「戦略の偏り」を効果的に防止し、限られたリソースの中で安定した高品質な結果を出せる。
「災害的忘却」の解決:新しい知識を学んでも古い能力を忘れない
AIモデルが新しい知識を追加するときにはしばしば「元の能力を忘れてしまう」ことがある。実験では、あるモデルが内部ドキュメントで微調整された後、指示に従う能力が85%から45%まで急落した。一方、オンライン戦略蒸留はリアルタイムでの軌跡サンプリングと教師の段階的修正により、41%の新しい知識を保持しつつ、既存の能力を83%まで迅速に回復させ、従来の微調整やオフライン蒸留よりもはるかに優れている。
この特性により、企業のシナリオに特に適している。モデルは業務の新規ルールや製品ドキュメントを動的に学習でき、基本的な会話やツールの呼び出しなどの核心的能力を失わないため、本当に「継続的な進化」が可能になる。
4ステップのクローズドループ:シンプルな構造で広く導入可能
この方法は非常に軽量で、4つのクローズドループだけで実現できる。
教師モデル(例えば32Bのモデル)を監督源として配置;
学生モデルが応答の軌跡を生成;
教師モデルが各トークンの対数確率を計算;
逆KL情報量を損失関数として使用して、学生モデルのパラメータを最適化。
複雑なインフラストラクチャを必要とせず、既存の蒸留フレームワークと互換性があるだけで、「安価かつ正確」な性能向上が可能になる。論文では、この技術がコード生成やマルチモーダル推論などのタスクにも簡単に拡張できることを示しており、教師-生徒の協調トレーニングの新たな道を開いている。
Mira Muratiによる「次元の低下攻撃」:AI民主化の鍵
前OpenAIのCTOであるMuratiは、大規模モデルトレーニングの実践経験を効率的な小規模モデルエコシステムに還元している。AIのセキュリティや整合性がますます重要になる中、オンライン戦略蒸留は効率を向上させるだけでなく、制御可能な知識移行を通じてモデルの行動の予測可能性を高めている。
業界の専門家は、この技術がオープンソースモデルやエッジAIの発展を大きく促進するだろうと予測している——8Bモデルが32Bモデルと同じタスクをこなせば、スマートフォンやIoTデバイス、さらにはローカルサーバーも高性能AIの載せ物になる。知能は、「クラウド独占」から「誰もが手に入る」へと変化している。
