昨日晚間,Stability AI發佈了其最強大的模型——Stable Diffusion3.5,這不僅是一個單一的模型,而是一個包含三個版本的全家桶,旨在滿足從科研人員到業務愛好者、初創公司和企業的多樣化需求。

這三個版本分別是Stable Diffusion3.5Large、Stable Diffusion3.5Large Turbo和即將於10月29日發佈的Stable Diffusion3.5Medium。

微信截圖_20241023082320.png

Stable Diffusion3.5Large是一個擁有80億參數的基礎模型,以其卓越的圖像質量和提示詞精確度而著稱,非常適合專業用途,能夠生成高達1百萬像素分辨率的圖像。

Stable Diffusion3.5Large Turbo是前者的蒸餾版本,它能夠在僅4步內生成高質量圖像,生成速度遠快於Stable Diffusion3.5Large。

而Stable Diffusion3.5Medium則擁有25億參數,採用改進的MMDiT-X架構和訓練方法,設計爲即插即用,能夠在消費級硬件上直接運行,平衡了圖像質量與可定製性,能夠生成分辨率在0.25到2百萬像素之間的圖像。

微信截圖_20241023082357.png

這些模型的開發優先考慮了可定製性,通過將Query-Key Normalization集成到transformer塊中,穩定了模型訓練過程並簡化了進一步的微調和開發。爲了支持下游任務的靈活性,Stability AI在模型中保留了更廣泛的知識基礎和多樣化的風格,儘管這可能導致輸出結果的不確定性增加。

Stable Diffusion3.5模型在多個方面表現出色,包括可定製性、高效性能和多樣化輸出。這些模型能夠輕鬆微調以滿足特定創作需求,或根據定製的工作流程構建應用程序。它們還經過優化,可在標準消費級硬件上運行,無需過高的硬件要求。此外,這些模型能夠創建代表全世界的圖像,無需大量的提示詞,同時能夠生成各種風格和美感的圖片,如3D、攝影、繪畫、線條藝術以及幾乎任何可以想象到的視覺風格。

微信截圖_20241023082912.png

微信截圖_20241023082919.png

Stability AI還強調了其對安全的承諾,採取了合理的措施防止Stable Diffusion3.5被濫用,並從開發早期階段就注重完整性。此外,Stability AI社區許可非常寬鬆,允許個人和組織免費使用該模型進行非商業用途,包括科學研究。對於年收入不超過100萬美元的初創公司、中小型企業和創作者,也可以免費將該模型用於商業用途。保留生成媒體的所有權,無需受到限制性許可的影響。

Stable Diffusion3.5模型已經在Hugging Face上可供自託管使用,並且推理代碼也已經開源。此外,還可以通過Stability AI API、Replicate、ComfyUI和DeepInfra等平臺訪問該模型。

體驗地址:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large