2025年3月4日,北京智譜華章科技有限公司宣佈推出首個支持生成漢字的開源文生圖模型——CogView4。該模型在DPG-Bench基準測試中綜合評分排名第一,成爲開源文生圖模型中的SOTA(State of the Art),並遵循Apache2.0協議,是首個支持該協議的圖像生成模型。
CogView4具備強大的複雜語義對齊和指令跟隨能力,支持任意長度的中英雙語輸入,並能生成任意分辨率的圖像。它不僅能夠生成高質量的圖像,還能在畫面中自然地融入漢字,滿足廣告、短視頻等領域的創意需求。技術上,CogView4採用了具備雙語能力的GLM-4encoder,通過中英雙語圖文訓練,實現了雙語提示詞輸入能力。
該模型還支持任意長度的提示詞輸入,能夠生成任意分辨率的圖像,極大地提升了創作自由度和訓練效率。CogView4採用了二維旋轉位置編碼(2D RoPE)來建模圖像位置信息,並通過內插位置編碼支持不同分辨率的圖像生成。此外,模型採用Flow-matching方案進行擴散生成建模,結合參數化的線性動態噪聲規劃,以適應不同分辨率圖像的信噪比需求。
在架構設計上,CogView4延續了上一代的Share-param DiT架構,併爲文本和圖像模態分別設計了獨立的自適應LayerNorm層,以實現模態間的高效適配。模型採用多階段訓練策略,包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練,確保生成的圖像具有高美感並符合人類偏好。
CogView4還突破了傳統固定token長度的限制,允許更高的token上限,並顯著減少了訓練過程中的文本token冗餘。當訓練caption的平均長度在200-300token時,與固定512token的傳統方案相比,CogView4減少了約50%的token冗餘,並在模型遞進訓練階段實現了5%-30%的效率提升。
此外,CogView4支持Apache2.0協議,後續將陸續增加ControlNet、ComfyUI等生態支持,全套的微調工具包也即將推出。
開源倉庫地址:
https://github.com/THUDM/CogView4
模型倉庫:
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B