在 AI 圖像生成領域,風格驅動和主題驅動的圖像生成一直以來被視爲兩個相對獨立的任務。前者注重風格的相似性,而後者則強調主題的一致性,造成了兩者之間的矛盾。最近,字節跳動的智能創作實驗室(UXO Team)推出了名爲 USO(統一風格 - 主題優化)的新模型,成功地解決了這一行業長期以來的難題。

image.png

字節跳動的研究人員深知 AI 模型的成長依賴於數據。因此,他們建立了一個龐大的數據集,包含大約20萬個三元組。每個三元組包括一張 “風格參考圖”、一張 “內容參考圖”,以及一張 “風格化目標圖”。通過這個設計,模型能夠學習如何將風格與內容相結合。

在模型的訓練過程中,字節跳動採用了獨特的兩階段訓練法。第一階段專注於風格的學習,採用了先進的圖像編碼器,幫助模型理解更深層次的藝術風格。第二階段則將內容信息加入,通過處理確保主題的準確性。這一方法讓風格和內容在模型中分開學習,最終在生成圖像時實現完美融合。

爲了進一步提升模型的表現,字節團隊還引入了風格獎勵學習(SRL)機制,通過強化訓練激勵模型在保持主題不變的情況下儘量模仿風格。最終,這一系列創新使 USO 在生成圖像時展現出了極高的靈活性和精準度。

爲驗證 USO 的能力,字節跳動還推出了業界首個能同時評估風格相似度和主題保真度的基準測試平臺 USO-Bench。在這一平臺上,USO 在各個維度上均取得了顯著優勢,超越了現有的開源模型。

USO 的技術不僅在數字藝術領域表現出色,也爲商業設計帶來了新的可能。品牌可以利用 USO 生成風格多樣但又統一的營銷材料,滿足不同平臺的需求。更重要的是,USO 已經全面開源,鼓勵更多的開發者和創作者一起探索其潛力。

github:https://github.com/bytedance/USO

體驗:https://huggingface.co/spaces/bytedance-research/USO

劃重點:

- 🎨 字節跳動推出的 USO 模型打破了風格與主題的對立,實現了兩者的完美結合。

- 📊 USO 模型通過創新的訓練方式和龐大的數據集,提升了圖像生成的靈活性與精準度。

- 🌍 USO 已全面開源,鼓勵開發者探索其在創意內容和商業設計中的應用。