人工智能(AI)正變得越來越聰明,尤其是那些大型語言模型(LLMs),它們在處理自然語言方面的能力讓人驚歎。但你知道嗎?這些聰明的AI大腦背後,是需要巨大的計算力和存儲空間來支撐的。

一個擁有1760億參數的多語言模型Bloom,光是存儲模型的權重就需要至少350GB的空間,而且運行起來還需要好幾塊高級GPU。這不僅成本高,而且難以普及。

image.png

爲了解決這個問題,研究者們提出了一種叫做“量化”的技術。量化,就像是給AI大腦做了一次“瘦身”,通過將模型的權重和激活映射到更低位數的數據格式,不僅減少了模型的體積,還加快了模型的運行速度。但這個過程也有風險,可能會損失一些準確性。

面對這個挑戰,北京航空航天大學和商湯科技的研究者們聯手開發了LLMC工具包。LLMC就像是AI的私人減肥教練,它能夠幫助研究者和開發者找到最適合的"減肥方案",既能讓AI模型變得更輕盈,又不會影響它的"智力水平"。

LLMC工具包有三大特點:

多樣化:LLMC提供了16種不同的量化方法,就像是給AI準備了16種不同的減肥食譜。無論你的AI是想全身減肥還是局部瘦身,LLMC都能滿足你的需求。

低成本:LLMC非常節省資源,即使是處理超大型模型,也只需要很少的硬件支持。比如,只用一塊40GB的A100GPU,就能對擁有1750億參數的OPT-175B模型進行調整和評估。這就像是用家用跑步機就能訓練出奧運冠軍一樣高效!

高兼容性:LLMC支持多種量化設置和模型格式,還兼容多種後端和硬件平臺。這就像是一個萬能教練,無論你用什麼裝備,它都能幫你制定合適的訓練計劃。

LLMC的實際應用:讓AI更聰明、更節能

LLMC工具包的出現,爲大型語言模型的量化提供了一個全面、公正的基準測試。它考慮了訓練數據、算法和數據格式這三個關鍵因素,幫助用戶找到最佳的性能優化方案。

在實際應用中,LLMC可以幫助研究者和開發者更高效地集成合適的算法和低比特格式,推動大型語言模型的壓縮普及。這意味着,未來我們可能會看到更多輕量級但同樣強大的AI應用。

論文的作者們還分享了一些有趣的發現和建議:

選擇訓練數據時,應該選擇與測試數據在詞彙分佈上更相似的數據集,就像人類減肥要根據自身情況選擇合適的食譜一樣。

在量化算法方面,他們探討了轉換、裁剪和重建三種主要技術的影響,就像是比較了不同的運動方式對減肥的效果。

在選擇整數還是浮點數量化時,他們發現浮點量化在處理複雜情況時更有優勢,而在某些特殊情況下,整數量化可能更好。這就像是在不同的減肥階段,需要採用不同的運動強度一樣。

LLMC工具包的問世,爲AI領域帶來了一股新風。它不僅爲研究者和開發者提供了一個強大的助手,也爲AI的未來發展指明瞭方向。通過LLMC,我們可以期待看到更多輕量級、高效能的AI應用,讓AI真正走入我們的日常生活。

項目地址:https://github.com/ModelTC/llmc

論文地址:https://arxiv.org/pdf/2405.06001