近日,科技巨頭英偉達聯合麻省理工學院(MIT)與香港大學,發佈了名爲 Fast-dLLM 的新框架。這一創新的框架旨在顯著提高擴散模型(Diffusion-based LLMs)的推理速度,最高可達27.6倍,爲人工智能的應用提供了更爲強大的技術支持。
擴散模型的挑戰與機遇
擴散模型被視爲傳統自迴歸模型(Autoregressive Models)的有力競爭者。它採用雙向注意力機制(Bidirectional Attention Mechanisms),理論上能夠通過同步生成多個詞元(Multi-token Generation)來加速解碼過程。然而,在實際應用中,擴散模型的推理速度常常不及自迴歸模型,主要由於每次生成步驟都需重新計算全部注意力狀態,導致計算成本過高。此外,多詞元同步解碼時,詞元間的依賴關係容易被破壞,從而影響生成質量。
Fast-dLLM 框架的創新
爲了解決上述問題,英偉達團隊研發了 Fast-dLLM 框架,引入了兩項重要創新:塊狀近似 KV 緩存機制和置信度感知並行解碼策略。
1. ** 塊狀近似 KV 緩存機制 **:該機制通過將序列劃分爲多個塊(Blocks),預先計算並存儲各塊的激活值(KV Activations),在後續解碼中重複利用。這種方式顯著減少了計算冗餘,提升了效率。其 DualCache 版本進一步緩存前後綴詞元(Prefix and Suffix Tokens),利用相鄰推理步驟的高度相似性來提升處理速度。
2. ** 置信度感知並行解碼策略 **:該策略根據設定的閾值(Confidence Threshold),選擇性地解碼高置信度的詞元,避免同步採樣帶來的依賴衝突,從而確保生成質量。
卓越的性能表現
Fast-dLLM 在多項基準測試中表現出色。在 GSM8K 數據集上,生成長度爲1024詞元時,其8-shot 配置實現了27.6倍的速度提升,準確率達76.0%;在 MATH 基準測試中,加速倍數爲6.5倍,準確率約爲39.3%;在 HumanEval 和 MBPP 測試中,分別實現了3.2倍和7.8倍的加速,準確率維持在54.3% 和基線水平附近。總體來看,Fast-dLLM 在提升速度的同時,準確率僅下降1-2個百分點,有效平衡了速度與質量。
通過解決推理效率和解碼質量的問題,Fast-dLLM 使擴散模型在實際語言生成任務中具備了與自迴歸模型競爭的實力,爲未來更廣泛的應用奠定了基礎。隨着這一技術的推廣,我們有望看到人工智能在更多領域的實際應用。
項目:https://nvlabs.github.io/Fast-dLLM/