在當今數字時代,圖像生成技術正以驚人的速度發展。最近,來自新加坡國立大學的研究團隊提出了一種全新的框架 ——OminiControl,旨在提升圖像生成的靈活性和效率。該框架通過結合圖像條件,充分利用已經訓練好的擴散變換器(Diffusion Transformer,簡稱 DiT)模型,帶來了前所未有的控制能力。

簡單的說,只要提供素材圖,利用OminiControl就能將素材圖中的主題融入到生成的圖片中。比如小編上傳了左邊的素材圖,輸入提示詞“芯片人放置在一個醫生辦公室的桌子旁邊,桌子上放着聽診器”,生成效果比較一般,如下:

image.png

OminiControl 的核心在於其 “參數重用機制”。這種機制使得 DiT 模型能夠以更少的額外參數有效地處理圖像條件。這意味着,相較於現有的方法,OminiControl 僅需增加0.1% 到0.1% 的參數就能實現強大的功能。此外,它能夠統一處理多種圖像條件任務,比如基於主題的生成和空間對齊條件的應用,比如邊緣、深度圖等。這種靈活性特別適用於主題驅動的生成任務。

image.png

研究團隊還特別強調,OminiControl 是通過訓練生成的圖像來實現這些能力的,這對於主題驅動的生成尤爲重要。經過廣泛的評估,OminiControl 在主題驅動生成和空間對齊條件生成的任務中,都顯著超過了現有的 UNet 模型和 DiT 適應模型。這一研究成果爲創作領域帶來了新的可能性。

爲了支持更廣泛的研究,團隊還發布了一個名爲 Subjects200K 的訓練數據集,包含了超過20萬張身份一致的圖像,並提供了高效的數據合成管道。這個數據集將爲研究人員提供寶的資源,幫助他們進一步探索主題一致生成任務。

image.png

Omini 的推出不僅提升了圖像生成的效率與效果,也爲藝術創作提供了更多可能性。隨着技術的不斷進步,未來的圖像生成將更加智能化和個性化。

在線體驗:https://huggingface.co/spaces/Yuanshi/OminiControl

github:https://github.com/Yuanshi9815/OminiControl

論文:https://arxiv.org/html/2411.15098v2

劃重點:

🌟 OminiControl 通過參數重用機制,讓圖像生成的控制能力更強大,效率更高。

🎨 該框架能同時處理多種圖像條件任務,如邊緣、深度圖等,適應不同創作需求。

📸 團隊發佈了超過20萬張圖像的數據集 Subjects200K,助力進一步的研究與探索。