北京智源人工智能研究院(BAAI)近日宣佈推出了一款全新的全能視覺生成模型OmniGen,標誌着圖像生成領域的一項重大突破。OmniGen模型以其統一性、簡單性和跨任務知識遷移能力而著稱,能夠在單一框架內處理多種圖像生成任務,包括文生圖、圖像編輯、主題驅動生成和視覺條件生成等。此外,OmniGen還能夠處理一些經典的計算機視覺任務,如圖像去噪和邊緣檢測,通過將這些任務轉換爲圖像生成任務來實現。

微信截圖_20241029103628.png

OmniGen的核心優勢在於其簡化的架構和用戶友好的操作,用戶可以通過簡單的指令完成複雜的圖像生成任務,無需額外的插件或複雜的處理步驟。這種統一格式的學習使得OmniGen能夠有效地跨不同任務遷移知識,應對未見過的任務和領域,並展示新穎的功能。

OmniGen模型的能力不僅限於上述內容,還包括基本的圖像處理能力如去噪和邊緣提取。模型的權重和代碼已經開源,以便用戶可以自行探索更多OmniGen的能力,並根據需要進行微調。智源研究院構建了一個大規模且多樣化的統一圖像生成數據集X2I,包含約1億圖像,未來將開源,以推動通用圖像生成領域的發展。

相關鏈接:

Paper: https://arxiv.org/pdf/2409.11340

Code: https://github.com/VectorSpaceLab/OmniGen

Demo: https://huggingface.co/spaces/Shitao/OmniGen