字節跳動悄悄咪咪推出了一款名爲 InfiniteYou (InfU), 的圖像生成神器。簡單的說,這是一款文本到圖像的生成模型,它的厲害之處在於,能夠根據你輸入的文字描述,生成帶有你個人身份特徵的高質量圖像。
這可不是簡單的換臉App能比的,它更注重的是在靈活變換場景和內容的同時,精準保留你的身份特徵。想象一下,你可以輕鬆生成自己穿着宇航服漫步太空、身着古裝穿越回古代的照片,而且保證那張臉還是你自己的,是不是很酷?
“InfiniteYou”之所以能做到這一點,背後可有着一套“組合拳”。
- 核心武器:InfuseNet。“InfiniteYou”的核心是一個名爲 InfuseNet 的祕密武器。它可以將你的身份特徵巧妙地注入到被稱爲 Diffusion Transformer (DiT) 的先進圖像生成模型(比如 FLUX)中。InfuseNet就像一位技藝高超的化妝師,通過“殘差連接”這種精細的操作,在增強人臉相似度的同時,還不破壞原有的生成能力。
- 多階段訓練:精益求精。“InfiniteYou”的煉成並非一蹴而就,而是經歷了預訓練和使用合成的單人多樣本(SPMS)數據進行監督微調(SFT)等多重考驗。這種精細化的訓練策略,能夠顯著提升文本和圖像的對齊度,讓生成的圖像更符合你的文字描述,同時還能提高圖像質量和美觀度,並有效緩解“換臉”後常見的面部複製粘貼問題。
- 模型“雙保險”:各有側重。字節跳動這次還貼心地發佈了 aes_stage2 和 sim_stage1 兩個模型版本。aes_stage2 是經過第二階段微調的模型,默認情況下擁有更好的文圖對齊度和美觀性。如果你更看重人臉的相似度,那麼可以選擇 sim_stage1。這就像買手機,一個注重拍照效果,一個注重性能,總有一款適合你。
通過對比實驗可以看出,“InfiniteYou”在身份相似性、文本圖像對齊、圖像質量和美觀度等方面,都超越了現有的先進方法,比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要麼人臉不像,要麼文字描述和圖像內容不符,要麼就是圖像質量堪憂,甚至出現“換臉”後臉部特徵生硬粘貼的問題。相比之下,“InfiniteYou”的表現更加全面和出色。
更令人驚喜的是,“InfiniteYou”還具備**“即插即用”**的特性。它可以與 FLUX.1-dev 的各種變體(比如更高效的 FLUX.1-schnell)、ControlNets 和 LoRAs 等現有工具無縫集成,提供更強的可控性和定製化能力。甚至還可以與 IP-Adapter 結合,實現個性化圖像的風格遷移。這種強大的兼容性,無疑將爲更廣泛的社區做出有價值的貢獻。
需要注意的是,“InfiniteYou”目前是基於 Creative Commons Attribution-NonCommercial4.0International Public License 發佈的,僅供學術研究使用。下載和使用相關的模型(如 InsightFace 的人臉模型、FLUX.1-dev 基礎模型和 LoRA 等)必須遵守其原始許可。同時,開發者也希望用戶能夠遵守當地法律法規,負責任地使用這項技術,避免任何潛在的濫用行爲。
項目入口:https://top.aibase.com/tool/infiniteyou