Stable Diffusion 3 模型發佈,採用了與 Sora 相同的 DiT 架構,質量有顯著改進。作者表示,Stable Diffusion 3 優於其他文本到圖像生成系統,參數量從 800M 到 8B 不等。SD3 架構基於 Sora 核心研發成員和紐約大學助理教授合作,使用 MMDiT 架構優於 UViT 和 DiT。Stable Diffusion 3 採用 Rectified Flow(RF)公式,作者提出的重新加權 RF 變體性能持續提高。模型進行了擴展研究,利用靈活的文本編碼器進行改進,與其他模型進行了性能比較。
相關推薦
騰訊開源HunyuanImage 2.1!2K高清神圖秒生成,複雜提示精準控多主體,AI設計效率爆表?
騰訊混元團隊開源HunyuanImage2.1文本生成圖像模型,支持原生2K分辨率輸出,顯著提升開源AI在高分辨率創作領域能力。該模型已在Hugging Face和GitHub開放,優化文本-圖像對齊,生成速度快,可廣泛應用於設計、廣告和內容創作。
阿里通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B開源
阿里巴巴旗下的通義實驗室在Hugging Face和GitHub平臺正式開源了其最新的Wan2.1-FLF2V-14B首尾幀生視頻模型。這一模型以其支持高清視頻生成和靈活的首尾幀控制功能引發業界熱議,爲AI驅動的視頻創作提供了全新可能。Wan2.1-FLF2V-14B:首尾幀驅動的視頻生成新標杆Wan2.1-FLF2V-14B是阿里通義萬相系列的最新力作,基於數據驅動訓練和**DiT(Diffusion Transformer)**架構,專爲首尾幀視頻生成設計。據社交媒體平臺上的討論,該模型只需用戶提供兩張圖片作爲首幀和尾幀,即可生成一段長約5秒、720p分辨率的
通義萬相2.1開源首尾幀生視頻模型Wan2.1-FLF2V-14B
阿里通義宣佈開源 Wan2.1系列模型,其中包括強大的首尾幀生視頻模型。這一模型採用了先進的 DiT 架構,在技術上實現了多項突破,顯著降低了高清視頻生成的運算成本,同時確保了生成視頻在時間與空間上的高度一致性。此次開源爲開發者和創作者提供了強大的工具,推動視頻生成技術的發展。
比FLUX快100倍!英偉達聯手MIT、清華推出超快AI圖像生成模型Sana,筆記本也能秒速出圖!
英偉達與麻省理工學院、清華大學的研究人員合作開發了一款名爲Sana的全新文本到圖像生成框架,該框架能夠高效生成高達4096×4096分辨率的圖像。Sana可以在極快的速度下合成高分辨率、高質量且與文本高度一致的圖像,甚至可以在筆記本電腦的GPU上運行。Sana 的核心設計包括:深度壓縮自動編碼器: 與傳統的自動編碼器僅壓縮圖像8倍不同,Sana 訓練的自動編碼器可以將圖像壓縮32倍,有效減少了潛在標記的數量。線性 DiT: Sana 將 DiT 中所有普通的注意力機制替換爲線性注意力機制,這在高分
阿里發佈 FLUX.1-Turbo-Alpha:基於FLUX.1-dev、8步提煉Lora
近日,阿里媽媽創意團隊發佈了 FLUX.1-Turbo-Alpha,這是基於 FLUX.1-dev 模型訓練的一款8步蒸餾 Lora 模型。該模型採用了多頭判別器,顯著提高了蒸餾的質量,支持文本到圖像生成、修復控制網等多種 FLUX 相關的應用。團隊建議在使用時將引導尺度設置爲3.5,Lora 尺度爲1,未來還會推出更低步數的版本。FLUX.1-Turbo-Alpha 可以直接與 Diffusers 框架結合使用。用戶只需通過幾行代碼便能加載模型並生成所需的圖像。例如,你可以創建一個有趣的場景:一隻微笑的樹懶穿着皮夾克、牛仔帽、格子裙和蝴蝶
