最近の技術進展において、NVIDIAはマサチューセッツ工科大学(MIT)および香港大学と共同で、拡散モデル(Diffusion-based LLMs)の推論速度を大幅に向上させる新しいフレームワーク「Fast-dLLM」を発表しました。その速度は最大で27.6倍に達し、言語モデルの応用に新たな可能性をもたらしました。

拡散モデルは自己回帰モデルの強力な競合者として見られており、双方向アテンションメカニズムを採用することで、理論的には複数のトークンを同時に生成することが可能です。これによりデコーディング速度を向上させることができます。しかし、実際の応用では、拡散モデルは自己回帰モデルと比べて推論速度が劣ることがしばしばありました。それは、各生成時にすべてのアテンション状態を再計算する必要があるため、計算コストが非常に高いからです。また、複数のトークンを同時に出力する際には、トークン間の依存関係が破壊されることがあり、生成の質が低下し、実用的な制約を受ける原因となりました。

image.png

これらの課題を解決するために、NVIDIAの研究チームはFast-dLLMフレームワークに二つの重要な革新を導入しました。ブロック近似KVキャッシュ機構と信頼度に基づく並列デコード戦略です。KVキャッシュはシーケンスをブロックに分割し、他のブロックの活性化値を事前計算・保存することで、計算の冗長性を削減しました。さらに、DualCacheバージョンは隣接する推論ステップの高い類似性を利用して、前後のトークンをキャッシュすることにより効率をさらに向上させました。

image.png

一方、信頼度に基づくデコード戦略は、設定された閾値に基づいて信頼度の高いトークンのみを選択的にデコードします。これにより、同期サンプリングによる依存関係の衝突を避け、生成品質に影響を与えません。

Fast-dLLMは複数のベンチマークテストでも優れたパフォーマンスを示しました。GSM8Kデータセットでは、1024トークンの生成において、8ショット構成で驚異的な27.6倍の高速化を達成し、正確さは76.0%に達しました。MATHベンチマークでは、6.5倍の高速化と約39.3%の正確さを達成しました。また、HumanEvalとMBPPテストではそれぞれ3.2倍と7.8倍の高速化が達成され、正確さは54.3%とほぼベースラインレベルを維持しました。

image.png

Fast-dLLMは高速化を行う一方で、正確さはわずか1~2ポイントしか低下しなかったことから、速度と品質のバランスが取れていることがわかります。この研究成果は、拡散モデルが実際の言語生成タスクでより広範に応用できるようにし、自己回帰モデルとの競争力を高め、今後の普及に向けた強固な基礎を築きました。