智譜AI最新開源文生圖模型CogView4正式亮相,CogView4不僅在參數數量上達到了6億,還全面支持中文輸入和中文文本到圖像的生成,被稱其爲“首個能在畫面中生成漢字的開源模型”。

QQ_1741067026688.png

CogView4以支持中英雙語提示詞輸入爲核心亮點,尤其擅長理解和遵循複雜的中文指令,成爲中文內容創作者的福音。作爲首個能在圖像中生成漢字的開源文生圖模型,它填補了開源領域的一大空白。此外,該模型支持生成任意寬高圖片,並能處理任意長度的提示詞輸入,展現出極高的靈活性。

CogView4的雙語能力得益於技術架構的全面升級。其文本編碼器升級爲GLM-4,支持中英雙語輸入,徹底打破了此前開源模型僅支持英文的侷限。據悉,該模型使用中英雙語圖文對進行訓練,確保其在中文語境下的生成質量。

在文本處理上,CogView4摒棄了傳統的固定長度設計,採用動態文本長度方案。當平均描述文本爲200-300個詞元時,相較於固定512詞元的傳統方案,冗餘減少約50%,訓練效率提升5%-30%。這一創新不僅優化了計算資源,也讓模型能更高效地處理長短不一的提示詞。

CogView4支持生成任意分辨率的圖像,背後是多項技術突破。模型採用混合分辨率訓練,結合二維旋轉位置編碼和內插位置表示,適應不同尺寸需求。此外,其基於Flow-matching擴散模型和參數化線性動態噪聲規劃,進一步提升了生成圖像的質量和多樣性。

QQ_1741067051506.png

CogView4的訓練流程分爲多個階段:從基礎分辨率訓練開始,到泛分辨率適配,再到高質量數據微調,最後通過人類偏好對齊優化輸出。這一過程保留了Share-param DiT架構,同時爲不同模態引入獨立的自適應層歸一化,確保模型在多種任務中的穩定性與一致性。

項目:https://github.com/THUDM/CogView4