智譜發佈首個能生成漢字的開源文生圖模型CogView4

2025年3月4日，北京智譜華章科技有限公司宣佈推出首個支持生成漢字的開源文生圖模型——CogView4。該模型在DPG-Bench基準測試中綜合評分排名第一，成爲開源文生圖模型中的SOTA（State of the Art），並遵循Apache2.0協議，是首個支持該協議的圖像生成模型。

CogView4具備強大的複雜語義對齊和指令跟隨能力，支持任意長度的中英雙語輸入，並能生成任意分辨率的圖像。它不僅能夠生成高質量的圖像，還能在畫面中自然地融入漢字，滿足廣告、短視頻等領域的創意需求。技術上，CogView4採用了具備雙語能力的GLM-4encoder，通過中英雙語圖文訓練，實現了雙語提示詞輸入能力。

微信截圖_20250304133838.png

該模型還支持任意長度的提示詞輸入，能夠生成任意分辨率的圖像，極大地提升了創作自由度和訓練效率。CogView4採用了二維旋轉位置編碼（2D RoPE）來建模圖像位置信息，並通過內插位置編碼支持不同分辨率的圖像生成。此外，模型採用Flow-matching方案進行擴散生成建模，結合參數化的線性動態噪聲規劃，以適應不同分辨率圖像的信噪比需求。

在架構設計上，CogView4延續了上一代的Share-param DiT架構，併爲文本和圖像模態分別設計了獨立的自適應LayerNorm層，以實現模態間的高效適配。模型採用多階段訓練策略，包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練，確保生成的圖像具有高美感並符合人類偏好。

CogView4還突破了傳統固定token長度的限制，允許更高的token上限，並顯著減少了訓練過程中的文本token冗餘。當訓練caption的平均長度在200-300token時，與固定512token的傳統方案相比，CogView4減少了約50%的token冗餘，並在模型遞進訓練階段實現了5%-30%的效率提升。

此外，CogView4支持Apache2.0協議，後續將陸續增加ControlNet、ComfyUI等生態支持，全套的微調工具包也即將推出。

開源倉庫地址:

https://github.com/THUDM/CogView4

模型倉庫:

https://huggingface.co/THUDM/CogView4-6B

https://modelscope.cn/models/ZhipuAI/CogView4-6B

騰訊HunyuanImage 2.1強勢登頂！開源2K文生圖王者，秒變高清藝術大師？

近日，騰訊Hunyuan團隊正式開源HunyuanImage2.1，這款17B參數的DiT（Diffusion Transformer）文生圖模型迅速登頂Artificial Analysis Image Arena排行榜，超越HiDream-I1-Dev和Qwen-Image，成爲開源權重模型的新領軍者。該模型支持原生2048x2048分辨率輸出，並顯著提升文本生成能力，尤其在雙語（中英）支持和複雜語義理解上表現出色。根據最新科技討論和官方發佈整理，這一升級版模型在專業評估中勝率接近閉源商業級產品，標誌着開源AI圖像技術邁向高分辨率、高保真新時代，預計將助力設計師和開發者大幅提升

騰訊混元開源定製化圖像生成插件 InstantCharacter

騰訊混元宣佈開源定製化圖像生成插件 InstantCharacter，並實現了對開源文生圖模型 Flux 的兼容。這一插件的推出，標誌着圖像生成技術在角色一致性和圖像生成精確度上取得了重大突破，爲內容創作者提供了更高效、更靈活的創作工具。

豆包深度思考和文生圖3.0模型正式開放API 對企業客戶開放

豆包大模型近日發佈了系列更新，其中豆包1.5·深度思考模型和豆包文生圖模型3.0正式通過火山引擎開放 API，供開發者和企業客戶使用。這兩款模型在推理任務和通用任務的綜合表現達到了業界前沿水平，並在視覺推理和圖像生成方面取得了顯著進展。

字節Seedream 3.0 文生圖模型技術報告發布：多項性能大幅升級

字節跳動Seed團隊正式發佈了Seedream3.0文生圖模型的技術報告。這一模型在性能上實現了重大提升，是一個原生高分辨率、支持中英雙語的圖像生成基礎模型，在分辨率、生圖結構準確性等多方面取得突破，與上一版本相比優勢顯著。Seedream3.0在不同維度上的表現。本圖各維度數據以最佳指標爲參照系，已進行歸一化調整。在功能亮點上，Seedream3.0可原生2K直出，無需後處理就能輸出高分辨率圖像，滿足多種場景需求;出圖速度極快，僅需3秒，極大提升創作效率;小字生成和文本排版效果得到優

智譜發佈首個能生成漢字的開源文生圖模型CogView4

相關推薦

騰訊HunyuanImage 2.1強勢登頂！開源2K文生圖王者，秒變高清藝術大師？

騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

騰訊混元開源定製化圖像生成插件 InstantCharacter

豆包深度思考和文生圖3.0模型正式開放API 對企業客戶開放

字節Seedream 3.0 文生圖模型技術報告發布：多項性能大幅升級

智譜發佈首個能生成漢字的開源文生圖模型CogView4

相關推薦

騰訊HunyuanImage 2.1強勢登頂！開源2K文生圖王者，秒變高清藝術大師？

​騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

​騰訊混元開源定製化圖像生成插件 InstantCharacter

豆包深度思考和文生圖3.0模型正式開放API 對企業客戶開放

字節Seedream 3.0 文生圖模型技術報告發布：多項性能大幅升級

騰訊升級混元生圖模型混元Image 2.1，支持寫字、2k分辨率

騰訊混元開源定製化圖像生成插件 InstantCharacter