智源推出全能視覺生成模型 OmniGen 集多項能力於一體

北京智源人工智能研究院（BAAI）近日宣佈推出了一款全新的全能視覺生成模型OmniGen，標誌着圖像生成領域的一項重大突破。OmniGen模型以其統一性、簡單性和跨任務知識遷移能力而著稱，能夠在單一框架內處理多種圖像生成任務，包括文生圖、圖像編輯、主題驅動生成和視覺條件生成等。此外，OmniGen還能夠處理一些經典的計算機視覺任務，如圖像去噪和邊緣檢測，通過將這些任務轉換爲圖像生成任務來實現。

微信截圖_20241029103628.png

OmniGen的核心優勢在於其簡化的架構和用戶友好的操作，用戶可以通過簡單的指令完成複雜的圖像生成任務，無需額外的插件或複雜的處理步驟。這種統一格式的學習使得OmniGen能夠有效地跨不同任務遷移知識，應對未見過的任務和領域，並展示新穎的功能。

OmniGen模型的能力不僅限於上述內容，還包括基本的圖像處理能力如去噪和邊緣提取。模型的權重和代碼已經開源，以便用戶可以自行探索更多OmniGen的能力，並根據需要進行微調。智源研究院構建了一個大規模且多樣化的統一圖像生成數據集X2I，包含約1億圖像，未來將開源，以推動通用圖像生成領域的發展。

相關鏈接:

Paper: https://arxiv.org/pdf/2409.11340

Code: https://github.com/VectorSpaceLab/OmniGen

Demo: https://huggingface.co/spaces/Shitao/OmniGen

告別 AI 標準臉：阿里發佈 Wan2.7-Image，開啓“千人千面”新時代

阿里發佈Wan2.7-Image模型，在人像定製、色彩控制和長文本渲染方面實現突破，旨在解決AI生成圖像“千篇一律”的問題。模型已上線阿里雲百鍊平臺API並開放體驗，核心升級包括虛擬“捏臉”和精準調色盤功能，顯著提升創作自由度。

谷歌發佈新Flow:集成 Nano Banana 模型並打通 Veo 視頻工作流

谷歌於2026年2月25日宣佈對其AI創意工作室Flow進行重大升級，核心是將圖像生成項目Whisk與ImageFX深度整合進平臺，推動多模態AI工具從分散實驗轉向統一工作流。新版Flow搭載最新的圖像模型Nano Banana，支持生成高精度圖像，並可直接作爲素材導入Veo視頻模型，實現從靜態圖像到動態內容的流暢創作。

智源推出全能視覺生成模型 OmniGen 集多項能力於一體

相關推薦

圖像生成再提速：谷歌發佈 Nano Banana 2 Lite 模型，極致性價比挑戰行業門檻

xAI 發佈 Grok Imagine 質量模式 API：視覺生成邁入寫實新紀元

告別 AI 標準臉：阿里發佈 Wan2.7-Image，開啓“千人千面”新時代

Midjourney V8開啓測試:生成速度提升5倍並支持原生2K渲染

谷歌發佈新Flow:集成 Nano Banana 模型並打通 Veo 視頻工作流