人工智能初創公司 Ideogram 近日發佈了備受矚目的 Ideogram 4.0 開放權重文生圖模型。根據權威排分數據及多項視覺測試,該模型目前已被業內公認爲全球性能最強大的開源圖像生成 AI。其核心規模達到了 9.3B( 93 億)參數,採用了近期前沿開源模型主流的單流架構路線,實現了文本與圖像標誌(tokens)在同一個自注意力序列中的無縫融合。

排版排版,這纔是真正的海報大師
在技術架構層面上,Ideogram 4.0 組合了先進的 Qwen3-VL-8B-Instruct 文本編碼器、 34 層單流擴散 Transformer(DiT)以及 Euler 流匹配採樣器。這種深度的架構創新,賦予了該模型在圖像中精準繪製長文本的超強能力。相比傳統生圖模型常常出現的字母錯亂、拼寫錯誤等硬傷,新模型可以生成極爲清晰、準確的文字,完美適用於視覺排版、封面設計和文字海報製作。
爲了讓圖像中的元素佈局更加合理,研發團隊在訓練過程中加入了對象和文本的邊界框數據。再配合結構化的 JSON 字幕數據訓練,Ideogram 4.0 展現出了對空間關係的強大理解力。用戶現在可以通過提示詞,極爲精確地指定畫面的整體版式、各個對象的位置以及文本的排版佈局,徹底告別了以往生圖靠“抽卡”的盲目性。

盲測打榜斬獲全球第四
官方展示的樣例證明,Ideogram 4.0 生成的圖像質量極高,能夠輕鬆駕馭複雜的人物、細膩的場景以及各類商業設計,爲圖片創作和社媒素材出圖帶來了極大的便利。在知名圖形評估平臺 DesignArena 的最新排名中,Ideogram 4.0 的表現甚至超越了 Nano Banana Pro,直接躍升至全球第四的位置。
值得一提的是,該榜單採用的是完全隱藏模型名稱、由人類評審根據純粹的視覺效果進行盲測打分。這種純人工觀感的評估機制具有極高的含金量和可信度,充分印證了 Ideogram 4.0 在開源生圖領域無與倫比的領先優勢。
