在最近的科技進展中,英偉達與麻省理工學院(MIT)和香港大學聯合推出了名爲 Fast-dLLM 的新框架,顯著提升了擴散模型(Diffusion-based LLMs)的推理速度,最高可達27.6倍。這一創新的成果爲語言模型的應用開闢了新天地。

擴散模型被視爲自迴歸模型的有力競爭者,採用了雙向注意力機制,使其在理論上能夠實現多詞元同步生成,從而加快解碼速度。然而,實際應用中,擴散模型在推理速度上卻常常無法與自迴歸模型相媲美,因爲每一次生成都需要重複計算所有注意力狀態,這使得計算成本居高不下。此外,在進行多詞元解碼時,詞元之間的依賴關係易被破壞,影響生成質量,導致其在實際應用中受到限制。

image.png

爲了克服這些瓶頸,英偉達的研發團隊在 Fast-dLLM 框架中引入了兩項核心創新:塊狀近似 KV 緩存機制和置信度感知並行解碼策略。KV 緩存通過將序列劃分爲塊,預計算並存儲其他塊的激活值,減少了計算冗餘;而其 DualCache 版本更是進一步提升了效率,利用相鄰推理步驟的高相似性來緩存前後綴詞元。

image.png

同時,置信度解碼策略則根據設定的閾值選擇性解碼高置信度的詞元,從而避免了同步採樣可能帶來的依賴衝突,確保生成質量不受影響。

Fast-dLLM 在多項基準測試中表現出色。在 GSM8K 數據集上,該框架在生成長度爲1024詞元時,8-shot 配置下實現了驚人的27.6倍加速,並達到了76.0% 的準確率;在 MATH 基準測試中,其加速倍數爲6.5倍,準確率約爲39.3%;而在 HumanEval 和 MBPP 測試中,分別實現了3.2倍和7.8倍的加速,準確率保持在54.3% 和接近基線水平。

image.png

Fast-dLLM 在加速的同時,準確率僅下降了1-2個百分點,展示了其在速度與質量之間的良好平衡。這一研究成果爲擴散模型在實際語言生成任務中的應用提供了更爲強大的支持,使其有能力與自迴歸模型進行競爭,爲未來的廣泛應用奠定了堅實基礎。