10月13日、アリババグループは業界初の高性能な拡散言語モデル推論フレームワーク「dInfer」を正式にオープンソース化しました。
ベンチマークテストにおいて、dInferは拡散言語モデルの推論速度がNVIDIAの拡散モデルフレームワークFast-dLLMよりも10.7倍高速になりました。コード生成タスクHumanEvalでは、dInferは単一バッチ推論で1011トークン/秒の速度を達成し、初めてオープンソースコミュニティで拡散言語モデルの単一バッチ推論速度が自己回帰モデルを大きく上回りました。dInferの研究は、拡散言語モデルが持つ顕著な効率的なポテンシャルがあり、システム的なイノベーションによって実現可能であることを示しており、AGIへのアーキテクチャパスに非常に競争力のあるオプションを提供しています。
拡散言語モデルは、テキスト生成を「ランダムノイズから段階的に完全なシーケンスを復元する」というデノイジングプロセスとして見なし、高い並列性、グローバルな視野、構造の柔軟性という3つの利点を持っています。これらの利点により、アリババグループや中国人民大学が発表したLLaDA-MoEなどのモデルは、複数のベンチマークテストでトップクラスのARモデルと同等の精度を示しています。しかし、推論効率に関しては、dLLMの理論上の強力なポテンシャルは長期間にわたり厳しい現実の「枷」に縛られていました。dLLMの効率的な推論には、計算コストが高い、KVキャッシュの失効、並列デコードの3つの課題があります。これらのボトルネックにより、拡散言語モデルの推論速度は満足できるものではありませんでした。どのようにしてこの枷を破り、拡散言語モデルの推論効率のポテンシャルを解放するかは、この分野にとって解決すべき重要な課題でした。
dInferは、拡散言語モデルのために設計された、アルゴリズムとシステムが深く協調する高性能な推論フレームワークであり、LLaDA、LLaDA-MoE、LLaDA-MoE-TDなど、さまざまな拡散言語モデルをサポートしています。
dInferには4つのコアモジュールがあります:モデル接続(Model)、KVキャッシュマネージャー(KV-Cache Manager)、拡散イテレーションマネージャー(Iteration Manager)、およびデコード戦略(Decoder)。このようなプラグ可能なアーキテクチャにより、開発者はレゴのように、異なるモジュールの最適化戦略を組み合わせて探索し、統一されたプラットフォーム上で標準化された評価を行うことができます。さらに、dInferは上記の3つの課題に対し、各モジュール内で特定の解決策を統合しています。

(図説:dInferのアーキテクチャ)
8台のNVIDIA H800 GPUを搭載したノードでは、dInferの性能は目覚ましいものです:
以前のdLLM推論ソリューションFast-dLLMとの比較では、dInferはモデルの効果が同等であるにもかかわらず、平均推論速度(avg TPS)は10.7倍も向上しました(681 vs 63.6); コード生成タスクHumanEvalでは、dInferは単一バッチ推論で1011トークン/秒の速度を達成しました。また、業界トップの推論サービスフレームワークvLLM上で動作している、パラメータ数と性能が同等のARモデルQwen2.5-3Bと比較すると、dInferの平均推論速度はその2.5倍(681 vs 277)です。
アリババグループによると、dInferは先端研究と産業への導入をつなぎ、拡散言語モデルが「理論的実現可能」から「実用的で効率的」へと進むための重要な一歩を示しています。今回のオープンソース化は、世界中の開発者と研究者と共に拡散言語モデルの大きなポテンシャルを探求し、より効率的でオープンなAI新エコシステムを構築することを誠意を持って呼びかけているものです。
