近日,研究人員提出了一種名爲 Voost 的創新框架,旨在提升虛擬試衣和試脫技術的表現。虛擬試衣是指合成一個人穿着目標服裝的真實圖像,但由於姿態和外觀的變化,準確建模服裝與身體的對應關係一直是一大挑戰。Voost 的推出爲這個難題提供了新的解決方案。
Voost 是一個統一且可擴展的模型,通過一個單一的擴散變換器(DiT)共同學習虛擬試衣和試脫任務。與傳統方法不同,Voost 能夠讓每對服裝和人進行雙向監督,從而增強服裝與身體的關係推理,而無需依賴特定任務的網絡、輔助損失或額外的標籤。這個特點使得 Voost 在任務的靈活性和生成的多樣性上表現出色。
此外,研究團隊還引入了兩種推理時的技術來提升模型的魯棒性。一是注意力溫度縮放技術,能夠在分辨率或遮罩變化的情況下保持模型的穩定性;二是自我校正採樣,通過利用任務之間的雙向一致性,進一步優化生成結果。這些創新技術使得 Voost 在推理過程中能夠適應不同的輸入情況。
在大量實驗中,Voost 表現優異,達到了虛擬試衣和試脫基準測試的最新水平。研究結果顯示,Voost 在對齊準確性、視覺逼真度以及泛化能力等多個方面,均顯著超過了許多強基線模型。這一成果不僅爲虛擬試衣和試脫技術的發展提供了新的方向,同時也爲未來相關領域的研究奠定了基礎。
Voost 的成功展示了深度學習技術在服裝試穿體驗上的潛力,預示着我們在數字時尚和在線購物領域可能會迎來新的變革。
項目:https://nxnai.github.io/Voost/
劃重點:
🌟 Voost 是一種新的框架,通過單一的擴散變換器實現虛擬試衣和試脫的共同學習。
🔍 Voost 在任務靈活性和生成多樣性上表現出色,且無需特定的網絡和額外標籤。
🚀 實驗結果顯示,Voost 在準確性和視覺質量上優於現有的多種強基線模型。