近日,北京人工智能學院的研究團隊推出了一款名爲 OmniGen 的全新圖像生成模型。
全能型圖片生成編輯選手
與以往的圖像生成工具如 Stable Diffusion ,OmniGen 最大的亮點是,它不再只是專注於單一任務,它具備了多種能力:
能在一個統一的框架下處理多種圖像生成任務能:包括從文本到圖像生成、圖像編輯,可以說是個全能選手。
這意味着,用戶只需提供簡單提示詞,就能控制圖像生成與精細編輯,而不再需要再使用 ControlNet、IP-Adapter 這樣的插件對圖片進行細節調整!
這裏AIbase基於給出一個詳細老式相機創意拍照的效果提示詞,整體生成的效果細節感,滿滿,效果如下:
提示詞:A vintage camera placed on the ground, ejecting a swirling cloud of Polaroid-style photographs into the air. The photos, showing landscapes, wildlife, and travel scenes, seem to defy gravity, floating upward in a vortex of motion. The camera emits a glowing, smoky light from within, enhancing the magical, surreal atmosphere. The dark background contrasts with the illuminated photos and camera, creating a dreamlike, nostalgic scene filled with vibrant colors and dynamic movement. Scattered photos are visible on the ground, further contributing to the idea of an explosion of captured memories.
再比如下面的三個官方案例,上傳兩張圖,輸入相關提示詞,就能融合在一個場景中出現。
OmniGen 的架構非常簡化。與以往的圖像生成模型不同,它不再需要額外的文本編碼器或繁瑣的工作流程。只要輸入條件,OmniGen 就能高效地生成圖像,極大地提升了用戶體驗。它結合了變分自編碼器和預訓練的 Transformer 模型,從而在一個模型中同時處理圖像和文本輸入,減少了不必要的複雜性。
爲了增強圖像生成的效果,OmniGen 還採用了校正流訓練方法,這種方式通過直接回歸目標速度,使得圖像生成的控制更加精準。此外,它的漸進式訓練策略讓模型從低分辨率到高分辨率逐步掌握生成技巧,效果相當出色。
OmniGen在圖像生成媲美先進模型
據瞭解,OmniGen 的訓練數據集也非常龐大多樣,涵蓋了各種圖像生成任務。爲了確保模型在多任務處理上的強大能力,研究人員構建了一個叫做 X2I 的大規模數據集,其中包含了文本到圖像、圖像編輯等多個任務的數據。這使得 OmniGen 能夠有效地從不同的任務中學習和遷移知識,展現出新的生成能力。
在多項測試中,OmniGen 的表現讓人驚豔,其在文本到圖像生成方面,它與市面上最先進的模型表現相當。在 GenEval 基準測試中, OmniGen 僅使用了0.1億張圖像進行訓練,而 SD3使用了超過10億張圖像。
圖像編輯能力也同樣優秀,能夠精準把控源圖像和編輯指令。比如在 EMU-Edit 測試集上,超越了 InstructPix2Pix 等知名模型,甚至與當前最先進的 EMU-Edit 模型相當。
而在主體驅動生成的任務中,OmniGen 更是展示出了超凡的個性化能力,適合藝術創作和廣告設計等多個領域。
試玩地址:https://huggingface.co/spaces/Shitao/OmniGen
論文:https://arxiv.org/html/2409.11340v1