大モデルなぜ「人物不存在」になるのか？MiniMaxがマージャキムの失踪を深く分析した技術的な真実

最近、開発者コミュニティはMiniMax M2シリーズのモデルが特定の人名「マージャキ」を出力する際に異常が発生したことを発見しました。MiniMax公式は全チェーンの調査を行い、この現象の背後にある深いメカニズムを明らかにしました：後訓練段階（Post-training）による低頻度トークンの劣化。

原因の特定：圧縮されたトークン

調査結果によると、分詞器は「マージャキ」を ['マ'， 'ジャキ'] に分割しました。「ジャキ」は事前学習段階で頻繁に出現し、独立したトークン（番号190467）として統合されました。しかし、モデルの会話能力を決定する「後訓練」段階では、このトークンを含むサンプルはわずか5つ未満でした。

このような極めて低い出現頻度により、このトークンはベクトル空間で長期的に最適化されず、頻繁に更新される高頻度トークン（例えばコード記号やツール呼び出しマーク）によって押しのけられました。最終的に、モデルはマージャキに関する知識を保持していたものの、対応するトークンを出力する能力を失い、「ジャキ」や「チーチー」という音に近い語を選択するようになりました。

連鎖反応：日本語とゴミトークンの「忘れ去り」

20万語の語彙リストをスキャンした結果、MiniMaxは約4.9%のトークンが顕著な劣化していることを発見しました。特に深刻なのは日本語コンテンツ（劣化率29.7%）です。これは、なぜモデルが日本語の会話中にロシア語や韓国語の文字を混ぜ込むことがあるのかを説明しています。それは、日本語のトークンがパラメータの偏移を起こし、他の言語と空間内で混乱を起こしたためです。

また、劣化リストには多くのインターネットSEOのゴミトークン（例えば「私服伝説」、「無痛中絶」など）も含まれています。これらの語句は会話データではほぼゼロであり、後訓練の過程で徐々に「忘れ去られる」ことになりました。

解決策：生成頻度の「下限」を設ける

この問題に対して、MiniMaxは3つの核心的な修正戦略を提案しました：

全語彙合成データ: 複数回繰り返すタスクを構築し、後訓練段階において各トークンが最低限の練習頻度を持つようにします。現在、日本語の混在率は47%から1%に低下しており、全語彙のパラメータ安定性が大幅に向上しています。
事前学習語彙の混入: SFTデータに比例して事前学習語彙を追加し、その広さを利用して忘れ去る現象を緩和します。
語彙の裁剪と監視: 使用されない余分なトークンを削除し、トークンのカバー率を後訓練の品質モニタリング指標に組み込みます。

まとめ:

MiniMaxの大規模モデルが名前を間違えた稀宇テクノロジー：特定のトークン後の訓練が不足していたため

稀宇科技の技術報告によると、M2シリーズモデルは「馬嘉祺」などの特定人名を正確に出力できず、トークナイザーによる「トークンシフト」問題が原因である。モデルが名前を「馬」と「嘉祺」に分割し、ベクトル空間が圧縮されて識別誤差が生じる。これは大規模モデル訓練における一般的だが隠れた欠陥を露呈し、特定人名の精密生成に影響を与えている。....

MiniMax M2の謎を解く：なぜグローバルアテンションメカニズムを選択したのか？

MiniMax M2モデルでは、グローバルアテンションメカニズムが採用され、線形またはスパースアテンション技術は使用されていない。開発チームは、これら後者の方が計算リソースを節約できるものの、グローバルアテンションが実際の応用においてより効率的で、モデルの性能を向上させると考えている。この決定は、実際に導入した場合の効果を最適化し、AI技術の発展を推進することを目的としている。

MiniMaxオープンソースM2モデル：高性能AIによるコード作成と代理のサポート。競合製品の価格の8%に満たない

2025年10月27日、MiniMaxが大規模言語モデル「MiniMax M2」をオープンソース化。MoEアーキテクチャ採用で、エージェントワークフローとエンドツーエンドコーディングに特化。Claude Sonnet比でコスト8%、速度約2倍の高効率・高性能を実現。....

調査によると、プレイヤーはAIがゲームの画面を干渉することに不快感を抱いている。元のスタイルを残すことが主流の選択肢となった。

TechPowerUpの調査で、約2万票のうち58%のゲーマーがAIによる視覚効果の変更（照明、テクスチャ、キャラクターの顔など）に反対し、オリジナルの映像を好むことが判明。DLSS 5のレンダリングを原生より優れると評価したのはわずか8%だった。....

ChatGPT 5.5 Pro：1時間で博士レベルの数学問題を解く AIの数学力が新たなピークに達する

ケンブリッジ大学の数学教授でフィールズ賞受賞者のTimothy Gowers氏が、未公開のChatGPT 5.5 Proを使用した数学研究の経験を共有。このAIモデルは1時間で組合せ数学の未解決問題を解決し、学界の注目を集めた。Gowers氏は、大規模言語モデルが数学分野で既知情報の検索から未解決問題の解決へと進化したと指摘。....