人工智能(AI)在圖像生成領域取得了顯著的進展,但如何讓AI在生成不同場景或進行多次創作時,保持圖像中特定角色或物體的一致性,一直是行業內的重要挑戰。近日,字節跳動旗下的智能創作團隊發佈了其最新的開源項目 UNO,旨在通過創新技術,解鎖更強的生成可控性,尤其是在保持圖像主體一致性方面,爲AI圖像生成領域帶來了新的突破。
AI作圖“臉盲症”?UNO幫你記住“主角”
在以往的AI圖像生成過程中,即使輸入相同的描述,每次生成的人物、物品也可能在外觀上存在顯著差異,這使得在需要保持角色或物體在不同圖像中形象統一的應用場景中面臨諸多不便。例如,創建一個系列漫畫或故事繪本時,如果主角的形象 постоянно 變化,將嚴重影響用戶體驗。UNO項目的核心目標正是解決這一“臉盲症”問題,讓AI在生成圖像時,能夠準確地“記住”用戶想要保持一致的主體。
核心技術揭祕:數據合成與模型創新
UNO之所以能夠實現高一致性的圖像生成,得益於其提出的高一致性數據合成流程。該流程充分利用了擴散模型(Diffusion Transformers,簡稱 DiT)內在的上下文生成能力,生成具有高度一致性的多主體配對數據。
此外,UNO模型本身也進行了創新設計,主要包括 漸進式跨模態對齊(progressive cross-modal alignment) 和 通用旋轉位置編碼(universal rotary position embedding)。通過這些技術,UNO能夠更好地理解和對齊文本和圖像信息,從而在多主體驅動的生成過程中實現高一致性和可控性。
功能亮點:單主體與多主體場景皆可控
UNO的強大之處在於其同時支持單主體和多主體驅動的圖像生成,並能確保生成結果的高度一致性。這意味着,無論是需要保持單個角色的形象不變,還是需要在包含多個特定物體的場景中維持它們各自的特徵,UNO都能夠勝任。
通過 多圖像條件輸入,UNO能夠學習並理解用戶希望保持一致的主體特徵,並在後續的生成過程中準確地還原這些特徵,即使在不同的場景描述下,也能確保“主角”的形象不走樣。
賦能DiT模型:釋放更強大的生成潛力
雖然項目的介紹中並未直接明確UNO是基於哪個具體的DiT模型進行開發,但其強調利用了擴散模型的上下文生成能力,並開源了訓練和推理代碼,這爲研究人員和開發者將UNO的技術應用於各種DiT模型提供了便利。可以預見,UNO的技術將有助於提升現有DiT模型在生成圖像時的保真度和可控性,尤其是在需要保持圖像內容連貫性的場景中。
huggingface:https://huggingface.co/bytedance-research/UNO