震撼登場！英偉達開源圖像生成模型Sana ，1秒生圖、支持中英文和emoji

近日，英偉達開源了一款名爲 Sana 的圖像生成模型，這一模型僅有0.6億個參數，極大降低了運行門檻。

據瞭解，Sana 能夠生成4096×4096分辨率的圖像，並且可以在16GB 的顯卡上運行，不到1秒的時間內生成1024×1024分辨率的高質量圖片，這一速度在同類模型中表現突出。

研究團隊引入了一種深度壓縮自編碼器（DC-AE），相比於傳統的自編碼器，Sana 的壓縮比高達32倍，大大減少了潛在標記的數量，這對於生成超高分辨率圖像至關重要。其次，Sana 採用了線性擴散變換器(DiT)，用線性注意力取代了傳統的二次注意力，從而將複雜度降低到 O (N)，並通過3×3深度卷積提升了局部信息的捕捉能力。這樣的設計使得 Sana 在生成4K 圖像時延遲提高了1.7倍。

在文本編碼方面，Sana 選擇了小型的解碼器專用大語言模型 Gemma，取代了傳統的 T5模型。Gemma 在理解和執行復雜指令方面表現更爲出色，增強了圖像與文本之間的對齊能力。此外，Sana 還優化了訓練和推理策略，通過自動標記和選擇高 CLIP 評分的描述，提升了文本與圖像的一致性。新提出的 Flow-DPM-Solver 算法將推理步驟減少到了14-20步，顯著提高了性能。

綜合性能方面，Sana 在多個先進的文本到圖像擴散模型中表現優異。在512×512分辨率下，Sana-0.6的吞吐量是 PixArt-Σ 的5倍，並且在圖像生成質量方面表現出色。而在1024×1024分辨率下，Sana-0.6B 在小於3億參數的模型中也有着顯著的優勢。

Sana-0.6B 不僅性能強勁，還可以在16GB 的筆記本 GPU 上快速生成圖像，助力內容創作者高效地實現創作目標。據稱，Sana0.6B性能上和Flux-12B也具備競爭力，參數量只有其1/20，速度卻是整整快100倍。

有趣的是，Sana提示詞支持英文、中文和 emoji。用戶可以輸入中文詩句，生成與之相關的藝術圖像。此外，Sana 還具有一定的安全性，當用戶輸入不當詞彙時，系統會自動用紅心圖案❤️替代，從而避免不適內容的生成。

比如AIbase輸入提示詞“一隻貓咪在草地玩耍，星星🌟”，生成速度很快，效果也特備不錯。

又比如給出提示詞“一隻可愛的 🐼 在吃 🎋，水墨畫風格”，可以看到模型能精準識別emoji。

值得一提的是，Sana 已獲得官方對 ComfyUI 的支持，並配備了 Lora 訓練工具。這使得用戶在使用過程中更加便捷，實用性也大幅提升，感興趣的朋友可以自己試試。

項目入口:https://nv-sana.mit.edu/

劃重點:
🌟 ** 高效生成 **:Sana 能夠快速生成高達4096×4096分辨率的高質量圖像，適合在普通筆記本 GPU 上使用。
⚙️ ** 創新設計 **:深度壓縮自編碼器和線性擴散變換器大幅提升了生成速度和質量。
🚀 ** 卓越性能 **:Sana 在多項測試中表現優異，吞吐量顯著高於其他先進模型，支持快速內容創作。

震撼登場！英偉達開源圖像生成模型Sana ，1秒生圖、支持中英文和emoji

相關推薦

英偉達雙塔 AI 模型開源發佈，文本生成速度提升 2.42 倍、畫質保留 98.7%

AI雲平臺Together AI完成8億美元C輪融資，估值達83億美元、年預訂額超11億

性能提升超兩倍：英偉達發佈 Nemotron-Labs-TwoTower 擴散語言模型

谷歌推出全新AI生圖模型Nano Banana 2 Lite： 4 秒出圖，主打高頻批量內容生產

AI 代理進化加速：Anthropic Claude 攜手英偉達 GB300 落地 Azure