最近、開発者コミュニティはMiniMax M2シリーズのモデルが特定の人名「マージャキ」を出力する際に異常が発生したことを発見しました。MiniMax公式は全チェーンの調査を行い、この現象の背後にある深いメカニズムを明らかにしました:後訓練段階(Post-training)による低頻度トークンの劣化。

原因の特定:圧縮されたトークン
調査結果によると、分詞器は「マージャキ」を ['マ', 'ジャキ'] に分割しました。 「ジャキ」は事前学習段階で頻繁に出現し、独立したトークン(番号190467)として統合されました。しかし、モデルの会話能力を決定する「後訓練」段階では、このトークンを含むサンプルはわずか5つ未満でした。
このような極めて低い出現頻度により、このトークンはベクトル空間で長期的に最適化されず、頻繁に更新される高頻度トークン(例えばコード記号やツール呼び出しマーク)によって押しのけられました。最終的に、モデルはマージャキに関する知識を保持していたものの、対応するトークンを出力する能力を失い、「ジャキ」や「チーチー」という音に近い語を選択するようになりました。
連鎖反応:日本語とゴミトークンの「忘れ去り」
20万語の語彙リストをスキャンした結果、MiniMaxは約4.9%のトークンが顕著な劣化していることを発見しました。特に深刻なのは日本語コンテンツ(劣化率29.7%)です。これは、なぜモデルが日本語の会話中にロシア語や韓国語の文字を混ぜ込むことがあるのかを説明しています。それは、日本語のトークンがパラメータの偏移を起こし、他の言語と空間内で混乱を起こしたためです。
また、劣化リストには多くのインターネットSEOのゴミトークン(例えば「私服伝説」、「無痛中絶」など)も含まれています。これらの語句は会話データではほぼゼロであり、後訓練の過程で徐々に「忘れ去られる」ことになりました。
解決策:生成頻度の「下限」を設ける
この問題に対して、MiniMaxは3つの核心的な修正戦略を提案しました:
全語彙合成データ: 複数回繰り返すタスクを構築し、後訓練段階において各トークンが最低限の練習頻度を持つようにします。現在、日本語の混在率は47%から1%に低下しており、全語彙のパラメータ安定性が大幅に向上しています。
事前学習語彙の混入: SFTデータに比例して事前学習語彙を追加し、その広さを利用して忘れ去る現象を緩和します。
語彙の裁剪と監視: 使用されない余分なトークンを削除し、トークンのカバー率を後訓練の品質モニタリング指標に組み込みます。
まとめ:
