テンセントのWeChat AIチームは、新しい拡散言語モデルフレームワークであるWeDLM(WeChat Diffusion Language Model)をリリースしました。このモデルは、従来の大規模言語モデル(例えばGPTシリーズ)が並列推論効率において抱えていた制約を突破することを目的として設計されており、より効率的なテキスト生成能力を提供します。

image.png

WeDLMは、革新的なトポロジー再配置技術を用いて、拡散モデルと標準的な因果的アテンションメカニズムを統合しています。この統合により、WeDLMはKVキャッシュ技術と互換性を持ち、従来の拡散モデルがバイダイレクショナルアテンションによって引き起こす推論速度の制限を効果的に解決することができます。この改善により、推論速度が向上し、生成品質も有効に保たれ、特に複雑な推論タスクにおいてその効果が顕著です。

実際の性能テストでは、WeDLMは明確な速度の優位性を示しました。例えば、数学的推論タスクであるGSM8Kにおいて、WeDLM-8Bモデルの推論速度は最適化された自己回帰モデル(例えばQwen3-8B)よりも約3倍速く、低エントロピーのシナリオにおけるカウントタスクでは10倍以上の速度向上が見られました。また、ARC、MMLU、Hellaswagなどの多数のベンチマークテストで、WeDLMの生成品質は従来の自己回帰ベースラインモデルと比較して同等またはさらに優れていることが確認され、これは効率性だけでなく高い正確性も維持していることを示しています。

WeDLMの高速な推論能力により、スマートカスタマーサービスやコード補助生成、リアルタイム質問応答などさまざまなシナリオでの適用が可能です。実際にこのモデルが広く利用されるにつれて、計算コストの削減やユーザー体験の向上、AI技術のさらなる普及が期待されます。

github:https://github.com/tencent/WeDLM

ポイント:

- 🚀 WeDLMはトポロジー再配置技術を用いて推論速度を向上させ、従来モデルの課題を解決します。

- 📊 GSM8Kなどのタスクにおいて、WeDLM-8Bの速度は最適化された自己回帰モデルよりも約3倍速いです。

- 💡 スマートカスタマーサービスやリアルタイム質問応答など、多様なシナリオに適しており、計算コストを下げ、ユーザー体験を向上させます。