正文

Stable Diffusion 3技術報告揭露Sora同款架構細節

發布於AI新閒資訊

時間 :Mar 6, 2024

閱讀 :1分鐘

Stable Diffusion 3（SD3）技術報告詳細介紹了SD3採用的多模態擴散Transformer架構MMDiT，通過對圖像和文本表示使用單獨兩組權重的方式，提升了性能。報告還揭露了SD3引入了重新加權流技術，並進行了規模化研究展望未來的性能提升。此外，報告還提到了文本編碼器的問題和建議。總體來說，SD3在技術方面的創新和性能表現給人留下了深刻印象。

通義千問重磅開源Qwen-Image：20B參數MMDiT模型全面刷新圖像生成SOTA

通義千問開源20B參數圖像生成模型Qwen-Image，採用創新MMDiT架構實現三大突破：1）卓越文本渲染能力，精準處理中英文混排；2）一致性圖像編輯技術，保持原圖風格精準修改；3）跨基準全面領先，在GenEval等測試中表現優異。該模型支持海報設計、排版規劃等專業應用，具備多樣化藝術風格創作能力。通過魔搭社區和Hugging Face完全開源，降低視覺創作門檻，推動生成式AI生態發展，標誌着圖像生成技術進入新階段。

Aug 5, 2025

174.2k

Stable Diffusion 3模型發佈，架構細節大揭祕，對復現Sora有幫助？

["Stable Diffusion 3 模型發佈","DiT（Diffusion Transformer）架構應用","Stable Diffusion 3 在質量上有顯著改進","Stable Diffusion 3 優於其他文本到圖像生成系統","Stable Diffusion 3 參數量從 800M 到 8B","SD3 架構基於 Sora 核心研發成員和紐約大學助理教授合作","MMDiT 架構優於 UViT 和 DiT","Stable Diffusion 3 採用 Rectified Flow（RF）公式","作者提出的重新加權 RF 變體性能持續提高","Stable Diffusion 3 模型進行了擴展研究","作者利用靈活的文本編碼器進行改進","Stable Diffusion 3 與其他模型進行了性能比較"]

Mar 6, 2024

127.4k

Stable Diffusion 3：超越現有文本到圖像生成系統的最強文生圖模型

["Stable Diffusion 3是一款最強的文生圖模型","Stable Diffusion 3採用了MMDiT架構，展現出超越現有文本到圖像生成系統的性能","Stable Diffusion 3在視覺美感、文本遵循和排版方面超越了其他先進模型","MMDiT架構結合了DiT和矩形流形式，通過獨立的權重集合處理圖像和語言表示","Stable Diffusion 3具有靈活性，能在不同硬件設備上快速生成圖像，並提供多種模型規模選擇","Stable Diffusion 3通過MMDiT架構、Prompt Following功能、Rectified Flow方法等技術實現了改進"]

Mar 6, 2024

149.8k