Stable Diffusion 3モデルがリリースされました。Soraと同じDiTアーキテクチャを採用しており、画質が大幅に向上しています。開発者によると、Stable Diffusion 3は他のテキストから画像生成システムを上回り、パラメータ数は8億から80億と様々です。SD3アーキテクチャは、Soraの中核開発メンバーとニューヨーク大学の助教授との共同研究に基づいており、MMDiTアーキテクチャはUViTやDiTよりも優れています。Stable Diffusion 3はRectified Flow(RF)式を採用しており、開発者によって提案された再重み付けRF変種は性能を継続的に向上させています。柔軟なテキストエンコーダを用いた改良のための拡張研究が行われ、他のモデルとの性能比較も行われました。