バイトダンスのDoubao大規模言語モデルチームは本日、新しいスパースモデルアーキテクチャ「UltraMem」の開発に成功したと発表しました。このアーキテクチャは、MoE(Mixture of Experts)モデルの推論における高額なメモリアクセス問題を効果的に解決し、推論速度をMoEと比べて2~6倍向上させ、推論コストを最大83%削減します。この画期的な進歩は、大規模言語モデルの高効率推論に新たな道を切り開きます。

バイトダンス抖音Doubao大規模言語モデル

UltraMemアーキテクチャは、モデルの効果を維持しながら、MoEアーキテクチャの推論におけるメモリアクセスのボトルネックを解消することに成功しました。実験結果によると、パラメータと活性化条件が同じ場合、UltraMemはMoEよりもモデル効果が優れているだけでなく、推論速度を2~6倍向上させます。さらに、一般的なバッチサイズでは、UltraMemのメモリアクセスコストは同等の計算量のDenseモデルとほぼ同等であり、推論コストを大幅に削減します。

QQ20250212-140416.png

研究チームは、2000万個のvalueを持つUltraMemモデルを訓練しました。実験結果によると、同等の計算資源下で、このモデルは業界をリードする推論速度とモデル性能を同時に実現しました。この成果はUltraMemアーキテクチャの優れたスケーラビリティ特性を実証し、数十億規模のvalueまたはexpertモデルの構築のための技術基盤を築きました。

大規模言語モデルの規模が拡大するにつれて、推論コストと速度は、その応用を制限する重要な要因となっています。MoEアーキテクチャは計算とパラメータのデカップリングを実現していますが、推論時の高いメモリアクセス需要により遅延が増加します。UltraMemアーキテクチャの提案は、この問題を効果的に解決し、大規模言語モデルの規模拡大への適用に新たな技術選択肢を提供します。