在現代時尚產業中,視頻虛擬試穿(Video Virtual Try-On, VVT)逐漸成爲了用戶體驗的重要組成部分。這項技術旨在通過模擬服裝在視頻中與人體動作的自然互動,展現出服裝在動態變化中的真實效果。然而,目前的 VVT 方法仍然面臨着空間時間一致性和服裝內容保留等多重挑戰。
爲了解決這些問題,研究人員提出了 MagicTryOn,一個基於大型視頻擴散變換器(Diffusion Transformer)的虛擬試穿框架。與傳統的 U-Net 架構不同,MagicTryOn 基於Wan2.1視頻模型,採用了擴散變換器,通過全面的自注意力機制共同建模視頻的時空一致性。這種創新性的設計使得模型能夠更加有效地捕捉複雜的結構關係和動態一致性。
在 MagicTryOn 的設計中,研究者們引入了一種粗到細的服裝保留策略。在粗略階段,模型在嵌入階段整合服裝標記,而在細化階段則結合了多種服裝相關的條件信息,如語義、紋理和輪廓線,從而在去噪聲階段增強了服裝細節的表達。此外,研究團隊還提出了一種基於掩碼的損失函數,以進一步優化服裝區域的真實感。
爲了驗證 MagicTryOn 的有效性,研究者在多個圖像和視頻試穿數據集上進行了廣泛的實驗。結果表明,該方法在綜合評估中優於現有的最先進技術,並且能夠很好地推廣到實際場景中。
在具體應用中,MagicTryOn 在大幅度運動場景下表現尤爲突出,例如舞蹈視頻。這類場景不僅要求服裝的一致性,還需要時空的連貫性。通過從 Pexels 網站選擇的兩個舞蹈視頻,研究者成功評估了 MagicTryOn 在大幅度運動情況下的表現。
MagicTryOn 代表了虛擬試穿技術的新進展,結合了先進的深度學習技術和創新的模型設計,展示了其在時尚界的巨大潛力。
項目:https://vivocameraresearch.github.io/magictryon/
劃重點:
🌟 MagicTryOn 採用擴散變換器,提升了視頻虛擬試穿的時空一致性。
👗 引入粗到細的服裝保留策略,增強了服裝細節的表現。
🎥 在大幅度運動場景下表現優異,成功展現了服裝與人體動作的自然互動。