最近蘋果公司的研究團隊和 Meta AI 的研究人員聯合推出了一項名爲 LazyLLM 的新技術,這項技術在提高大型語言模型(LLM)在長文本推理中的效率。

大家都知道,當前的 LLM 在處理長提示時,特別是在預充階段,往往會面臨速度慢的問題。這主要是因爲現代的變換器架構在計算注意力時,其計算複雜度隨着提示中的 token 數量呈平方關係增長。因此,在使用 Llama2模型時,首個 token 的計算時間往往是後續解碼步驟的21倍,佔據了生成時間的23%。

image.png

爲了改善這一狀況,研究者們提出 LazyLLM,這是一種通過動態選擇重要 token 的計算方式來加速 LLM 推理的新方法。LazyLLM 的核心在於它會根據之前層的注意力分數評估每個 token 的重要性,從而逐步削減計算量。與永久性壓縮不同的是,LazyLLM 可以在必要時恢復被削減的 token,以確保模型的準確性。此外,LazyLLM 引入了一種名爲 Aux Cache 的機制,可以存儲被剪枝 token 的隱含狀態,從而高效地恢復這些 token,並防止性能下降。

image.png

LazyLLM 在推理速度上表現突出,尤其是在預填充和解碼階段。該技術的三個主要優點是:它與任何變換器基礎的 LLM 兼容,實施過程中不需要進行模型的再訓練,並且在多種語言任務上都表現得非常有效。LazyLLM 的動態剪枝策略使其在保留大部分重要 token 的同時,可以大幅度減少計算量,進而提升生成速度。

研究結果表明,LazyLLM 在多個語言任務上均表現優異,TTFT 速度提升達2.89倍(對於 Llama2)及4.77倍(對於 XGen),同時準確率幾乎與基線持平。無論是問答、摘要生成還是代碼補全任務,LazyLLM 都能實現更快的生成速度,並且在性能與速度之間取得良好的平衡。其漸進的剪枝策略加上逐層分析,爲 LazyLLM 的成功奠定了基礎。

論文地址:https://arxiv.org/abs/2407.14057

劃重點:

🌟 LazyLLM 通過動態選擇重要 token,加速 LLM 推理過程,特別是在長文本場景中表現突出。  

⚡ 該技術能夠顯著提高推理速度,TTFT 速度提升可達4.77倍,同時保持較高的準確性。  

🔧 LazyLLM 不需要對現有模型進行改動,可與任何變換器基礎的 LLM 兼容,易於實施。