AI 圖像生成技術正在飛速發展,但模型體積越來越大,對普通用戶來說,訓練和使用成本都非常高。現在,一種名爲 “Sana” 的新型文本到圖像框架橫空出世,它能夠高效生成高達4096×4096分辨率的超高清圖像,而且速度驚人,甚至可以在筆記本電腦的 GPU 上運行。

image.png

Sana 的核心設計包括:

深度壓縮自編碼器:與傳統自編碼器僅壓縮圖像8倍不同,Sana 使用的自編碼器可以將圖像壓縮32倍,從而有效地減少了潛在的 tokens 數量。這對於高效訓練和生成超高分辨率圖像至關重要。

線性 DiT:Sana 用線性注意力取代了 DiT 中的所有傳統注意力機制,這在不犧牲質量的前提下,提高了高分辨率圖像的處理效率。線性注意力將計算複雜度從 O(N²) 降低到 O(N)。此外,Sana 還採用了 Mix-FFN,將3x3深度卷積整合到 MLP 中,以聚合 tokens 的局部信息,並且不再需要位置編碼。

解碼器式文本編碼器:Sana 使用了最新的解碼器式小型 LLM(如 Gemma)作爲文本編碼器,替代了以往常用的 CLIP 或 T5。這種方式增強了模型對用戶提示的理解和推理能力,並通過複雜的人工指令和上下文學習來提高圖像文本的對齊度。

高效的訓練和採樣策略:Sana 採用了 Flow-DPM-Solver 來減少採樣步驟,並使用高效的標題標註和選擇方法來加速模型收斂。Sana-0.6B 模型比大型擴散模型(如 Flux-12B)小20倍,速度快100多倍。

image.png

Sana 的創新之處在於,它通過以下方法顯著降低了推理延遲:

算法和系統的協同優化:通過多種優化手段,Sana 將4096x4096圖像的生成時間從469秒縮短到9.6秒,比當前最先進的模型 Flux 快106倍。

深度壓縮自編碼器:Sana 使用 AE-F32C32P1結構,將圖像壓縮32倍,顯著減少了 tokens 數量,加快了訓練和推理速度。

線性注意力:用線性注意力取代傳統的自注意力機制,提高了高分辨率圖像的處理效率。

Triton 加速:使用 Triton 來融合線性注意力模塊的前向和後向過程的內核,進一步加速訓練和推理。

Flow-DPM-Solver:將推理採樣步驟從28-50步減少到14-20步,同時獲得更好的生成效果。

Sana 的性能表現非常出色。在1024x1024分辨率下,Sana-0.6B 模型的參數只有5.9億,但整體性能卻達到了0.64GenEval,與許多更大的模型相比毫不遜色。而且,Sana-0.6B 可以在16GB 筆記本電腦 GPU 上部署,生成1024×1024分辨率的圖像僅需不到1秒。對於4K 圖像生成,Sana-0.6B 的吞吐量比最先進的方法(FLUX)快100倍以上。Sana 不僅在速度上取得了突破,在圖像質量方面也具有競爭力,即使是複雜的場景,如文字渲染和物體細節,Sana 的表現也令人滿意。

此外,Sana 還具備強大的零樣本語言遷移能力。即使只用英文數據進行訓練,Sana 也能理解中文和表情符號的提示並生成相應的圖像。

Sana 的出現,降低了高質量圖像生成的門檻,爲專業人士和普通用戶提供了強大的內容創作工具。Sana 的代碼和模型將公開發布。

體驗地址:https://nv-sana.mit.edu/

論文地址:https://arxiv.org/pdf/2410.10629

Github:https://github.com/NVlabs/Sana