大規模言語モデル技術の新たなトレンドにおいて、アントテクノロジーリサーチインスティテュートはこのほどLLaDA2.0シリーズを正式に発表しました。これは業界で初めてパラメータ数が100Bに達した離散拡散大規模言語モデル(dLLM)です。この革新的なモデルは、拡散モデルがスケーラブルでないという従来のイメージを打ち破り、生成品質と推論速度において顕著な向上を遂げました。これにより、大規模言語モデル分野に新たな発展方向を開きました。

QQ20251212-161353.png

LLaDA2.0シリーズには2つのバージョンがあります:16B(mini)と100B(flash)。今回の発表された100Bバージョンは、現在までで最大の拡散言語モデルであり、特に複雑なコード生成や命令実行タスクにおいて優れた性能を発揮します。アントグループは、LLaDA2.0が新規なWarmup-Stable-Decay(WSD)の事前学習戦略を通じて、自己回帰(AR)モデルの知識をスムーズに引き継ぐことができ、ゼロから訓練する高コストを回避したと述べています。

技術的な詳細面では、LLaDA2.0は並列デコードの利点を示しており、推論速度は535tokens/sに達し、同クラスのARモデルよりも2.1倍速くなっています。この速度の向上は、モデルが推論プロセス中にKVキャッシュを再利用し、ブロックレベルでの並列デコード技術を採用したことに起因しています。さらに、アントグループは後学習段階において補完的なマスクと信頼度感知並列学習(CAP)を用いて、モデルのデータ効率と推論速度をさらに最適化しました。

LLaDA2.0は、さまざまな評価次元で優れた結果を示しており、特に構造化された生成タスク、例えばコード生成分野において、より強力な全体計画能力を示しています。複雑なエージェント呼び出しや長文タスクにおいても、LLaDA2.0は優れたパフォーマンスを発揮し、多様なアプリケーションシナリオにおける強力な適応力を示しています。

アントグループの発表は、離散拡散技術の重要なマイルストーンを示すものであり、拡散モデルが超大規模な応用シーンにおける可能性と利点を示唆しています。今後、アントグループは拡散モデルの潜在力をさらに探求し、パラメータ規模の拡大、強化学習および思考パラダイムの深く融合を目指し、生成型AIの進歩に貢献することを計画しています。

住所:https://huggingface.co/collections/inclusionAI/llada-20