近日,智譜AI向公衆開源了其最新力作——CogView3及其升級版CogView-3Plus-3B,爲文生圖領域注入了新的活力。

CogView3的亮相無疑是一個重要里程碑。作爲首個在文本到圖像生成領域實現中繼擴散的模型,它採用了獨特的級聯擴散方法。這種創新性的approach首先生成低分辨率圖像,隨後通過基於中繼的超分辨率技術來完成最終輸出。這不僅大幅提升了生成圖像的質量,還顯著降低了訓練和推理的成本。

image.png

最令人矚目的是CogView3的性能表現。根據人類評價結果,CogView3在生成質量上超越了當前最先進的開源文本到圖像模型SDXL,勝率高達77.0%。更令人驚歎的是,它僅用了SDXL約一半的推理時間就達到了這一成就。如果使用CogView3的精簡版本,在僅佔用SDXL十分之一推理時間的情況下,依然能夠保持可比的性能水平。這一突破性進展無疑爲高效率、高質量的圖像生成開闢了新的可能。

與此同時,智譜AI還推出了CogView-3Plus-3B,這是一個基於DiT(Diffusion Transformers)框架的圖像模型。雖然其具體測試結果尚未公佈,但業界對其潛力充滿期待。CogView-3Plus-3B在CogView3的基礎上進行了進一步優化,引入了Zero-SNR擴散噪聲調度和聯合文本-圖像注意力機制等先進技術。這些改進不僅降低了訓練和推理成本,還保持了強大的圖像生成能力。

值得一提的是,CogView-3Plus-3B支持的圖像分辨率範圍十分廣泛,從512x512到2048x2048不等,這極大地增加了其應用場景的靈活性。無論是日常使用還是專業創作,都能找到適合的分辨率選項。

爲了幫助用戶更好地利用這些模型,智譜AI還提供了實用的建議和工具。他們建議用戶通過大型語言模型(LLM)來優化提示詞,這可以顯著提升生成圖像的質量。同時,智譜AI還提供了示例腳本,大大降低了用戶的使用門檻。

項目地址:https://github.com/THUDM/CogView3