人工智能(AI)驅動的文本到圖像(T2I)生成模型,如DALLE3、Adobe Firefly3等,展現出卓越的生成能力,在現實應用中潛力無限。然而,這些模型通常擁有數十億的參數,對內存要求極高,這給在移動設備等資源受限的平臺上部署帶來了巨大挑戰。
爲了解決這些難題,ByteDance和POSTECH的研究人員探索了對T2I模型進行極低位量化的技術。在衆多先進模型中,FLUX.1-dev因其公開可用性和出色的性能成爲研究目標。
研究人員通過一種名爲1.58位量化的方法,對FLUX模型中的視覺轉換器權重進行壓縮,使其僅採用 {-1,0, +1} 三個數值。這種量化方法無需訪問圖像數據,僅依靠FLUX.1-dev模型的自監督即可完成。與BitNet b1.58方法不同,該方法不是從頭訓練大型語言模型,而是作爲一種針對T2I模型的後訓練量化解決方案。

通過這種方法,模型存儲空間減少了7.7倍,因爲1.58位權重使用2位有符號整數存儲,實現了從16位精度的壓縮。爲了進一步提高推理效率,研究人員還開發了一個爲低位計算優化的定製內核。該內核使 推理內存使用量減少了超過5.1倍,並提高了推理延遲。
在GenEval和T2I Compbench基準測試中的評估表明,1.58位FLUX在保持與全精度FLUX模型相當的生成質量的同時,顯著提高了計算效率。
具體來說,研究人員將FLUX模型中99.5%的視覺轉換器參數(總計119億)量化爲1.58位,從而大幅降低了存儲需求。
實驗結果表明,1.58位FLUX在T2I CompBench和GenEval數據集上的性能與原始FLUX模型相當。在推理速度方面,1.58位FLUX在低性能GPU(如L20和A10)上表現出更顯著的改進。

總而言之,1.58位FLUX的出現,標誌着在使高質量T2I模型能夠在內存和延遲受限的設備上實際部署方面邁出了重要一步。
儘管1.58位FLUX在速度改進和高分辨率圖像細節渲染方面仍存在一些侷限性,但其在提高模型效率和降低資源消耗方面的巨大潛力,有望爲未來的研究提供新的思路。
主要改進總結:
模型壓縮: 模型存儲空間減少了7.7倍。
內存優化: 推理內存使用量減少了5.1倍以上。
性能保持: 在GenEval和T2I Compbench基準測試中,1.58位FLUX保持了與全精度FLUX模型相當的性能。
無需圖像數據: 量化過程無需訪問任何圖像數據,僅依賴模型自身的自監督。
定製內核: 採用了爲低位計算優化的定製內核,提升了推理效率。
項目頁:https://chenglin-yang.github.io/1.58bit.flux.github.io/
論文地址:https://arxiv.org/pdf/2412.18653
模型地址:https://huggingface.co/papers/2412.18653
