近日,英偉達開源了一款名爲 Sana 的圖像生成模型,這一模型僅有0.6億個參數,極大降低了運行門檻。

據瞭解,Sana 能夠生成4096×4096分辨率的圖像,並且可以在16GB 的顯卡上運行,不到1秒的時間內生成1024×1024分辨率的高質量圖片,這一速度在同類模型中表現突出。
研究團隊引入了一種深度壓縮自編碼器(DC-AE),相比於傳統的自編碼器,Sana 的壓縮比高達32倍,大大減少了潛在標記的數量,這對於生成超高分辨率圖像至關重要。其次,Sana 採用了線性擴散變換器(DiT),用線性注意力取代了傳統的二次注意力,從而將複雜度降低到 O (N),並通過3×3深度卷積提升了局部信息的捕捉能力。這樣的設計使得 Sana 在生成4K 圖像時延遲提高了1.7倍。
在文本編碼方面,Sana 選擇了小型的解碼器專用大語言模型 Gemma,取代了傳統的 T5模型。Gemma 在理解和執行復雜指令方面表現更爲出色,增強了圖像與文本之間的對齊能力。此外,Sana 還優化了訓練和推理策略,通過自動標記和選擇高 CLIP 評分的描述,提升了文本與圖像的一致性。新提出的 Flow-DPM-Solver 算法將推理步驟減少到了14-20步,顯著提高了性能。
綜合性能方面,Sana 在多個先進的文本到圖像擴散模型中表現優異。在512×512分辨率下,Sana-0.6的吞吐量是 PixArt-Σ 的5倍,並且在圖像生成質量方面表現出色。而在1024×1024分辨率下,Sana-0.6B 在小於3億參數的模型中也有着顯著的優勢。
Sana-0.6B 不僅性能強勁,還可以在16GB 的筆記本 GPU 上快速生成圖像,助力內容創作者高效地實現創作目標。據稱,Sana0.6B性能上和Flux-12B也具備競爭力,參數量只有其1/20,速度卻是整整快100倍。
有趣的是,Sana提示詞支持英文、中文和 emoji。用戶可以輸入中文詩句,生成與之相關的藝術圖像。此外,Sana 還具有一定的安全性,當用戶輸入不當詞彙時,系統會自動用紅心圖案❤️替代,從而避免不適內容的生成。
比如AIbase輸入提示詞“一隻貓咪在草地玩耍,星星🌟”,生成速度很快,效果也特備不錯。

又比如給出提示詞“一隻可愛的 🐼 在吃 🎋, 水墨畫風格”,可以看到模型能精準識別emoji。

值得一提的是,Sana 已獲得官方對 ComfyUI 的支持,並配備了 Lora 訓練工具。這使得用戶在使用過程中更加便捷,實用性也大幅提升,感興趣的朋友可以自己試試。
項目入口:https://nv-sana.mit.edu/
劃重點:
🌟 ** 高效生成 **:Sana 能夠快速生成高達4096×4096分辨率的高質量圖像,適合在普通筆記本 GPU 上使用。
⚙️ ** 創新設計 **:深度壓縮自編碼器和線性擴散變換器大幅提升了生成速度和質量。
🚀 ** 卓越性能 **:Sana 在多項測試中表現優異,吞吐量顯著高於其他先進模型,支持快速內容創作。
