Stable Diffusion 3 模型發佈,採用了與 Sora 相同的 DiT 架構,質量有顯著改進。作者表示,Stable Diffusion 3 優於其他文本到圖像生成系統,參數量從 800M 到 8B 不等。SD3 架構基於 Sora 核心研發成員和紐約大學助理教授合作,使用 MMDiT 架構優於 UViT 和 DiT。Stable Diffusion 3 採用 Rectified Flow(RF)公式,作者提出的重新加權 RF 變體性能持續提高。模型進行了擴展研究,利用靈活的文本編碼器進行改進,與其他模型進行了性能比較。