アントグループと中国人民大学は、ネイティブなMoEアーキテクチャを採用した拡散言語モデル(dLLM)「LLaDA-MoE」を開発しました。約20Tのデータで、MoEアーキテクチャをもつ拡散言語モデルをゼロからトレーニングし、産業レベルの大規模トレーニングのスケーラビリティと安定性を検証しました。効果は以前に発表された密な拡散言語モデルであるLLaDA1.0/1.5やDream-7Bを上回り、同等の自己回帰モデルと同等の性能を持ち、数倍の推論速度の優位性も保持しています。このモデルは近日中に完全オープンソース化され、グローバルなAIコミュニティにおけるdLLM技術の発展を推進する予定です。

9月11日、2025Inclusion・外灘大会上、アントグループと中国人民大学は業界初のネイティブなMoEアーキテクチャを持つ拡散言語モデル「LLaDA-MoE」を発表しました。中国人民大学高瓴人工智能学院の副教授である李崇軒氏、アントグループの汎用人工知能研究センター長で西湖大学特任研究員、西湖心辰創業者の藍振忠氏が発表式に参加しました。

1757647141286.jpg

(中国人民大学、アントグループが初めてのMoEアーキテクチャを持つ拡散モデルLLaDA-MoEを発表)

説明によると、この新モデルは非自己回帰的なマスク拡散メカニズムを通じて、初めてネイティブにトレーニングされたMoEを大規模言語モデルで使用し、Qwen2.5と同等の言語知能(文脈学習、指示遵守、コードおよび数学的推論など)を実現しました。これは「言語モデルは必ずしも自己回帰である必要がある」という主流の認識を挑戦しました。

実績データによると、LLaDA-MoEモデルの性能はコード、数学、Agentなどのタスクにおいて、LLaDA1.0/1.5やDream-7Bなどの拡散言語モデルを上回り、自己回帰モデルであるQwen2.5-3B-Instructと同等またはそれを超えています。わずか1.4Bパラメータを活性化することで、3Bの密なモデルと同等の性能を達成しています。

1757647166389.jpg

(LLaDA-MoEの性能表現)

「LLaDA-MoEモデルは産業レベルの大規模トレーニングのスケーラビリティと安定性を証明し、dLLMをより大規模に拡張する道をさらに一歩前進させたことを意味します。」と、藍振忠氏は発表現場で述べました。

中国人民大学高瓴人工智能学院の副部長である李崇軒氏は、「2年経過し、AI大規模モデルの能力は飛躍的に向上しましたが、いくつかの問題は本質的に解決されていません。その原因は、現在の大きなモデルが一般的に採用している自己回帰生成の枠組みにあると考えられます。モデルは天然的に単方向モデリングであり、前から後へ順次次のトークンを生成します。これにより、トークン間の双方向依存関係を捉えることが困難になります。」と紹介しました。

このような問題に対応して、一部の研究者は別の方法を探し、並列デコード可能な拡散言語モデルに注目しました。しかし、現在のdLLMはすべて密なアーキテクチャに基づいており、ARMでのMoEの「パラメータ拡張と計算効率」の利点を再現することが難しいのです。このような業界状況の中で、アントと人民大学の共同研究チームは、最初にMoEアーキテクチャを採用したネイティブな拡散言語モデル「LLaDA-MoE」を発表しました。

藍振忠氏はまた、「我々は近日中にモデルの重みと自社開発の推論フレームワークを世界中で完全オープンソース化する予定です。コミュニティとともにAGIの新たな突破を推進します。」と語りました。

情報によると、アントと人民大学のチームは3か月間取り組み、LLaDA-1.0の上で訓練コードを再構築し、アント自社の分散フレームワークATorchを活用してEP並列などの並列加速技術を提供しました。アントLing2.0ベースモデルのトレーニングデータを基盤として、負荷バランス、ノイズサンプリングの漂移などの核心的な問題を解決し、最終的に7B-A1B(総計7B、活性化1.4B)のMoEアーキテクチャを採用して約20Tのデータを効率的にトレーニングしました。

アント自社の統一評価フレームワーク下では、LLaDA-MoEはHumanEval、MBPP、GSM8K、MATH、IFEval、BFCLなどの17のベンチマークで平均して8.4%向上し、LLaDA-1.5を13.2%上回り、Qwen2.5-3B-Instructと同等の性能を示しました。実験により、「MoEエフェクター」の法則がdLLM分野でも成立することを再度確認し、今後の10B〜100Bのスパースモデルにとって実行可能な道を示しました。

藍振忠氏によると、モデルの重みだけでなく、dLLMの並列特性を深く最適化した推論エンジンも同時にオープンソース化されます。NVIDIA公式のfast-dLLMと比較して、このエンジンは顕著な高速化を実現しています。関連するコードと技術報告書は近日中にGitHubおよびHugging Faceコミュニティで同時公開される予定です。