智譜開源文生圖模型CogView4，支持中英雙語提示詞輸入

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 21, 2025

智譜AI最新開源文生圖模型CogView4正式亮相，CogView4不僅在參數數量上達到了6億，還全面支持中文輸入和中文文本到圖像的生成，被稱其爲“首個能在畫面中生成漢字的開源模型”。

CogView4以支持中英雙語提示詞輸入爲核心亮點，尤其擅長理解和遵循複雜的中文指令，成爲中文內容創作者的福音。作爲首個能在圖像中生成漢字的開源文生圖模型，它填補了開源領域的一大空白。此外，該模型支持生成任意寬高圖片，並能處理任意長度的提示詞輸入，展現出極高的靈活性。

CogView4的雙語能力得益於技術架構的全面升級。其文本編碼器升級爲GLM-4，支持中英雙語輸入，徹底打破了此前開源模型僅支持英文的侷限。據悉，該模型使用中英雙語圖文對進行訓練，確保其在中文語境下的生成質量。

在文本處理上，CogView4摒棄了傳統的固定長度設計，採用動態文本長度方案。當平均描述文本爲200-300個詞元時，相較於固定512詞元的傳統方案，冗餘減少約50%，訓練效率提升5%-30%。這一創新不僅優化了計算資源，也讓模型能更高效地處理長短不一的提示詞。

CogView4支持生成任意分辨率的圖像，背後是多項技術突破。模型採用混合分辨率訓練，結合二維旋轉位置編碼和內插位置表示，適應不同尺寸需求。此外，其基於Flow-matching擴散模型和參數化線性動態噪聲規劃，進一步提升了生成圖像的質量和多樣性。

CogView4的訓練流程分爲多個階段:從基礎分辨率訓練開始，到泛分辨率適配，再到高質量數據微調，最後通過人類偏好對齊優化輸出。這一過程保留了Share-param DiT架構，同時爲不同模態引入獨立的自適應層歸一化，確保模型在多種任務中的穩定性與一致性。

項目:https://github.com/THUDM/CogView4

AI 大戰超級瑪麗！Claude 3.7 封神：Gemini、GPT-4o 全軍覆沒，誰纔是遊戲界真王者？

誰是遊戲界真王者?AI 竟向經典遊戲《超級馬力歐兄弟》發起挑戰! 加州大學聖地亞哥分校 Hao 人工智能實驗室傳來驚人戰報:在一場別開生面的 AI “馬力歐” 大亂鬥中，Anthropic 旗下的 Claude3.7模型 “一騎絕塵”，力壓羣雄，榮登 “最強 AI 馬力歐” 寶座! 緊隨其後的是同門師弟 Claude3.5，而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 這兩位 “AI 界大佬” 卻意外 “翻車”，表現令人大跌眼鏡! 這究竟是怎麼回事?這場 AI “馬力歐” 爭霸賽，並非在古老的紅白機上進行，而是在一個 “高科技” 模擬器中

飛豬推出 AI 行程助手：在線旅遊行業首個融合多模型智能產品

阿里巴巴旗下領先在線旅遊平臺飛豬宣佈，將於3月5日正式推出在線旅遊行業首個融合多個大模型的 AI 產品——“AI 行程助手”。這一創新產品集成了 DeepSeek-R1和阿里雲通義千問旗下主力模型的強大能力，旨在以秒級響應速度爲用戶提供高度個性化的旅行方案。此消息一經發布，便在 X 上引發熱烈討論，被視爲 AI 技術在旅遊行業落地的新里程碑。AI 行程助手:多模型融合的智能突破飛豬介紹，“AI 行程助手”將於3月5日上線，融合了DeepSeek-R1的推理能力和阿里雲通義千問的多語言理解與生成

Viam 融資 3000 萬美元，攜手巨頭加速全球 AI 自動化佈局！

Viam 宣佈完成3000萬美元的 C 輪融資，此輪融資由現有投資者聯合廣場創投（Union Square Ventures）主導，參與者還包括電池創投(Battery Ventures)、歐洲投資集團 Neurone 及其他現有投資者。此次融資使得 Viam 自成立以來的總融資額達到1.17億美元。Viam 是一家致力於數據、人工智能和自動化的工程平臺。Viam 的創始人兼首席執行官 Eliot Horowitz 表示:“我們非常幸運能夠與像聯合廣場創投這樣的合作伙伴攜手，他們願意加大對我們事業的支持。同時，我們也期待與 Neurone 合作，進一步推動我們的全球發展

Stability AI與 Arm 合作推出離線生成音頻技術

Stability AI因其Stable Diffusion文本生成圖像模型而聞名。最近，該公司與全球半導體巨頭 Arm 展開合作，致力於將生成音頻人工智能能力引入移動設備。這一合作使得Stable Audio Open模型能夠完全在 Arm CPU 上運行，用戶可以在設備上快速生成音效、音頻樣本和製作元素，且無需互聯網連接。Stability AI表示，隨着生成性人工智能在企業和專業創作者中的應用越來越廣泛，確保我們的模型和工作流程在各個創造領域都能便捷使用顯得尤爲重要。這不僅能夠提升創作效率，也有助於將這些技術無縫整合

自變量機器人成功融資，邁向具身智能新紀元

在最新的產業動態中，南京市創投集團宣佈國產機器人初創企業自變量機器人（X Square Robot）成功完成 Pre-A++ 輪融資。這一輪融資的領投方爲光速光合與君聯資本，北京機器人產業基金及神騏資本等機構也參與了跟投，融資金額將用於下一代統一具身智能通用大模型的訓練與場景落地。自變量機器人成立於2023年12月，目標是通過研發具身智能通用大模型，推動通用機器人技術的發展，最終實現通用機器人如人類一般，能夠通過交互、感知和行動自主執行任務。這意味着，未來的機器人將具

官宣！可靈 AI 安卓應用正式上線

日前，可靈 AI 官方宣佈，備受期待的安卓應用終於上線。這款應用將用戶所喜愛的 Kling AI 功能集中於一處，用戶只需輕輕點擊，即可體驗豐富多樣的功能，包括 Frames、Elements 等。根據官方頁面介紹，KLING AI 的核心功能包括 AI 視頻生成和 AI 圖像生成。用戶可以輸入文本提示或上傳參考圖像，輕鬆製作出分辨率高達1080P 的視頻。這款應用支持用戶生成長達3分鐘的創意視頻，方便用戶將想法轉化爲生動的影像。此外，用戶也可以利用文本或圖像生成多種風格和尺寸的創意圖像，並能夠一鍵將