英偉達與麻省理工學院、清華大學的研究人員合作開發了一款名爲Sana的全新文本到圖像生成框架,該框架能夠高效生成高達4096×4096分辨率的圖像。
Sana可以在極快的速度下合成高分辨率、高質量且與文本高度一致的圖像,甚至可以在筆記本電腦的GPU上運行。

Sana 的核心設計包括:
深度壓縮自動編碼器: 與傳統的自動編碼器僅壓縮圖像8倍不同,Sana 訓練的自動編碼器可以將圖像壓縮32倍,有效減少了潛在標記的數量。
線性 DiT: Sana 將 DiT 中所有普通的注意力機制替換爲線性注意力機制,這在高分辨率圖像生成時更加高效,且不會犧牲質量。
僅解碼器文本編碼器: 研究人員用更先進的小型僅解碼器語言模型 (LLM) Gemma 替換了 T5作爲文本編碼器,並設計了複雜的人類指令和上下文學習來增強圖像與文本的一致性。
高效的訓練和採樣: Sana 提出了 Flow-DPM-Solver 來減少採樣步驟,並通過高效的標題標記和選擇來加速模型收斂。

得益於這些設計,Sana-0.6B 在性能上與大型擴散模型(如 Flux-12B)不相上下,但模型規模卻小20倍,速度快100多倍。
此外,Sana-0.6B 可以部署在16GB 的筆記本電腦 GPU 上,生成1024×1024分辨率的圖像只需不到1秒鐘,Sana 使低成本的內容創作成爲可能。

Sana 的主要優勢在於其高效性。 在4K 圖像生成方面,Sana-0.6B 的吞吐量比目前最先進的方法 (FLUX) 快100多倍,在1K 分辨率下快40倍。
研究人員還對 Sana-0.6B 進行了量化,並將其部署在邊緣設備上。在配備 RTX-4090GPU 的消費級設備上,生成1024×1024分辨率的圖像只需0.37秒,爲實時圖像生成提供了強大的基礎模型。
未來,研究人員計劃基於 Sana 構建一個高效的視頻生成流程。 然而,該研究也存在一些侷限性,例如無法完全保證生成圖像內容的安全性和可控性,在文本渲染、人臉和手部生成等複雜情況下也存在挑戰。
項目地址:https://nvlabs.github.io/Sana/
論文地址:https://arxiv.org/pdf/2410.10629
