Stability AI近日推出了其最新的深度學習文本到圖像生成模型 ——Stable Diffusion3.5。這一版本包括三種改進的開源模型,旨在滿足不同用戶的需求,包括研究人員、企業客戶和愛好者。

image.png

其中,Stable Diffusion3.5Large 是整個系列中最強大的模型,參數高達81億。該模型以其卓越的圖像質量和對提示的高度響應能力,成爲專業用戶的理想選擇,能夠生成分辨率達到1兆像素的高質量圖像。

此外,Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的簡化版。它在生成高質量圖像的同時,極大地提升了速度,僅需4個步驟便能完成圖像生成,相比前一版本更加高效,適合需要快速創作的用戶。

另一款新模型是 Stable Diffusion3.5Medium,它具有25億的參數。該模型採用了改進的 MMDiT-X 架構和訓練方法,設計上能夠 “開箱即用”,即使在消費級硬件上也能順暢運行。它在圖像生成質量和易於定製之間達成了良好的平衡,可以生成0.25至2兆像素的圖像。

這次發佈的背景是,在6月發佈的 Stable Diffusion3Medium 未能達到預期之後,Stability  AI 決定推出一個更具變革性的解決方案。公司表示,他們希望通過這一更新重新贏得市場競爭力,以應對 OpenAI 的 DALL-E 和 Midjourney 等平臺的挑戰。

新模型的一個重要技術創新是引入了查詢 - 鍵歸一化(Query-Key Normalization)技術。這一創新增強了模型的定製性和對提示的響應能力,用戶可以通過明確的提示獲得更一致的結果,同時在使用更寬泛的提示時也能獲得更豐富的圖像解釋。

Stable Diffusion3.5系列模型將在Stability  AI 的社區許可證下發布,允許用戶免費進行非商業使用。同時,年收入低於100萬美元的實體也可以免費進行商業使用,超過此收入的用戶則需申請企業許可證。

所有模型及其自託管所需的權重將在 Hugging Face 和Stability  AI 的 API 上提供。此外,預計在未來幾天內將推出提供高級圖像自定義選項的 ControlNets 功能。

官方入口:

https://stability.ai/stable-image

三個版本Hugging Face 入口:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

劃重點:

🌟 新推出的 Stable Diffusion3.5提供三種模型版本,適應不同用戶需求。  

⚡ Stable Diffusion3.5Large Turbo 具備更快的圖像生成速度,適合快速創作。  

📈 新模型引入查詢 - 鍵歸一化技術,提高了定製性和響應能力。