還在苦苦尋覓能聽懂中文的開源圖片模型?現在,你可以徹底告別英文 prompt 的“束縛”了!國內 AI 巨頭智譜 AI 霸氣開源了全新文生圖模型 CogView4,直接把中文圖片生成技術推向了新高度! 這下,設計師們、內容創作者們,甚至是對 AI 繪畫感興趣的 “小白” 們,都能揚眉吐氣,用咱自己的母語,玩轉 AI 圖像生成了!
CogView4最大的亮點,就是它對中文的“超強理解力”!你再也不用對着翻譯軟件吭哧吭哧地把中文 prompt 翻譯成英文,直接用最自然的中文 “指令”,就能讓 CogView4秒懂你的 “畫意”,精準生成你想要的畫面! 更讓人拍案叫絕的是,它可是首個能直接在畫面中 “寫” 出漢字的開源模型! 這簡直是爲中文用戶量身打造的 “神筆馬良”,讓你的創意表達更加 “原汁原味”,再也不用擔心畫面中的文字 “水土不服” 了!
更給力的是,CogView4還徹底解放了圖片尺寸和 prompt 長度的限制! 想生成 “巨幅” 寬屏海報? 沒問題! 想要 “長篇大論” 式的 prompt 描述複雜場景? 隨便輸! CogView4都能輕鬆Hold住,滿足你各種 “天馬行空” 的創作需求,讓你的想象力不再被 “條條框框” 所限制!
而且,CogView4可不是 “花架子”, 它在權威 DPG-Bench 基準測試中 “一舉奪魁”,綜合評分排名第一,實力可見一斑! 這意味着,CogView4不僅 “好用”,而且 “能打”, 在圖像生成質量上也是槓槓的,絕對能滿足你對畫面品質的 “苛刻” 要求!
爲了讓更多開發者和用戶 “玩轉” CogView4, 智譜 AI 還貼心地表示,後續還會開源配套的 ControlNet、ComfyUI 支持和模型微調工具, 簡直是把 “全套武功祕籍” 都奉上了! 這意味着,你不僅能 “開箱即用” CogView4的強大功能,還能根據自己的需求進行 “深度定製”, 打造更個性化、更強大的圖像生成模型!
那麼,CogView4究竟是如何煉成 “神功” 的呢? 簡單來說,它主要在以下幾個方面進行了 “技術升級”:
雙語能力 “大躍進”: CogView4的 “大腦” 升級爲了更強大的 GLM-4編碼器, 中文、英文 “通吃”! 它還 “飽讀詩書”, 學習了海量的中英雙語圖文數據, 徹底擺脫了以往中文模型 “英文不好使” 的尷尬局面, 真正做到了 “中英雙語,自由切換”!
文本處理更 “聰明”: CogView4採用了 “動態文本長度” 技術, 就像一個 “智能裁縫”, 能根據 prompt 的長短 “量體裁衣”, 避免了傳統固定長度方案的 “浪費” 和 “冗餘”, 效率直接提升5%-30%! 這意味着, CogView4不僅理解 prompt 更精準, 生成速度也更快了!
分辨率生成更 “靈活”: CogView4採用了 “混合分辨率訓練” 和 “二維旋轉位置編碼” 等 “黑科技”, 讓它能夠 “駕馭” 各種尺寸的圖片生成, 無論是 “高清大圖” 還是 “小巧精緻” 都能輕鬆搞定! 它還採用了 Flow-matching 擴散模型和參數化線性動態噪聲規劃, 讓圖像生成過程更加 “絲滑” 和 “可控”!
訓練流程更 “精細”: CogView4的訓練過程堪稱 “精雕細琢”, 經歷了 “多階段訓練” 和 “人類偏好對齊” 等 “層層淬鍊”, 從基礎分辨率到泛分辨率,再到高質量數據微調, 每一步都力求 “精益求精”! 它還保留了 Share-param DiT 架構, 併爲不同模態使用了獨立的自適應層歸一化, 讓模型更加 “強大” 和 “高效”!
項目地址:https://github.com/THUDM/CogView4