字節跳動豆包大模型團隊今日宣佈,成功研發出全新稀疏模型架構UltraMem,該架構有效解決了MoE(混合專家)模型推理時的高額訪存問題,推理速度較MoE提升2-6倍,推理成本最高可降低83%。這一突破性進展爲大模型的高效推理開闢了新路徑。
UltraMem架構在保證模型效果的前提下,成功解決了MoE架構推理時的訪存瓶頸。實驗結果表明,在參數和激活條件相同的情況下,UltraMem不僅模型效果優於MoE,更將推理速度提升了2-6倍。此外,在常見batch size規模下,UltraMem的訪存成本幾乎與同計算量的Dense模型相當,顯著降低了推理成本。
研究團隊訓練了規模達2000萬value的UltraMem模型,實驗結果顯示,在同等計算資源下,該模型同時實現了業界領先的推理速度和模型性能。這一成果驗證了UltraMem架構的優異Scaling特性,爲構建數十億規模value或expert模型奠定了技術基礎。
隨着大模型規模不斷擴大,推理成本和速度成爲制約其應用的關鍵因素。儘管MoE架構已實現計算與參數解耦,但其推理時的高訪存需求導致延遲增加。UltraMem架構的提出,有效解決了這一難題,爲大模型的規模化應用提供了新的技術選擇。