智譜技術團隊今日發佈了一則振奮人心的消息,他們最新研發的文生圖模型CogView3及其升級版CogView3-Plus-3B已正式開源,同時在"智譜清言"App中成功上線。這兩款模型的問世,標誌着AI輔助藝術創作邁入了一個新的階段。
CogView3作爲一款基於級聯擴散的文本轉圖像模型,其生成過程堪稱精妙。模型首先生成一幅512x512像素的低分辨率圖像,隨後通過中繼擴散過程將其提升至1024x1024,最終再次迭代,呈現出一幅2048x2048的高清大圖。這種層層遞進的生成方式,猶如數字畫家在畫布上逐步完善作品,爲用戶帶來了極致的視覺體驗。
據官方評估,CogView3的表現令人驚歎,其性能竟比當前頂尖的開源文生圖模型SDXL高出77%。更值得一提的是,CogView3的推理速度僅爲SDXL的十分之一,充分展現了智譜團隊在模型優化方面的卓越成就。
CogView3-Plus的推出更是將這一技術推向了新的高峯。該版本引入了先進的DiT框架,採用了Zero-SNR擴散噪聲調度,並創新性地加入了文本-圖像聯合注意力機制。這些改進不僅提升了模型的整體性能,還大幅降低了訓練和推理成本,實現了效能與效率的完美平衡。CogView3-Plus採用的16維VAE潛在空間,爲未來圖像生成技術的發展開闢了新的可能性。
對於渴望探索這一前沿技術的開發者和研究者,智譜技術團隊已經開放了CogView3和CogView3-Plus-3B的源代碼倉庫。這一舉措無疑將推動整個AI圖像生成領域的快速發展,爲更多創新應用提供堅實的技術基礎。
隨着CogView3系列模型的問世,文生圖技術的應用前景更加廣闊。從個人創作到商業設計,從教育輔助到娛樂產業,這項技術都有望帶來革命性的變革。我們可以預見,在不久的將來,AI輔助創作將成爲常態,讓更多人能夠輕鬆實現自己的藝術構想。
開源倉庫地址:
https://top.aibase.com/tool/cogview3
Plus 開源模型倉庫: