最近,中山大學和字節智創數字人團隊搞了個大新聞,他們提出了一個叫做MMTryon的虛擬試穿框架。這玩意兒可不簡單,只要輸入幾件衣服的圖片,再加上幾句穿法的文本指令,就能一鍵生成模特試穿效果,而且質量還特別高。

image.png

想象一下,你選中了一件大衣、一條褲子,再搭個包,然後“啪”的一下,它們就自動穿到了人像上。不管你是真人還是漫畫人物,都能一鍵搞定,這操作簡直不要太酷炫!

而且,MMTryon的厲害之處還不止於此。它在單圖換裝方面,利用了大量的數據設計了一個服裝編碼器,能夠處理各種複雜的換裝場景和任意服裝款式。至於組合換裝,它更是打破了傳統算法對服裝精細分割的依賴,一條文本指令就能搞定,生成的效果既真實又自然。

image.png

在基準測試中,MMTryon直接拿下了新SOTA,這成績可不是蓋的。研究團隊還搞了個多模態多參考注意機制,讓換裝效果更精確、更靈活。以前的虛擬試穿方案,要麼只能試穿單件,要麼對着裝風格束手無策。但現在,MMTryon統統給你解決。

而且,MMTryon還特別聰明,它用了一個表徵能力豐富的服裝編碼器,加上新穎的可擴展數據生成流程,讓換裝過程無需任何分割,直接通過文本和多個試穿對象就能實現高質量虛擬換裝。

image.png

在開源數據集和複雜場景下的大量實驗證明,MMTryon在定性和定量上都優於現有的SOTA方法。研究團隊還預訓練了一個服裝編碼器,利用文本作爲query,激活文本對應區域的特徵,擺脫了對服裝分割的依賴。

image.png

更牛的是,爲了訓練組合換裝,研究團隊提出了一個基於大模型的數據擴增模式,構建了100w的增強數據集,讓MMTryon在各種類型的換裝上都能有真實的虛擬試穿效果。

MMTryon就像是一個時尚界的黑科技,不僅能幫你一鍵試穿,還能作爲一個fashion換裝輔助設計,幫你挑衣服。在量化指標和Human evaluation上,MMTryon都超越了其他baseline模型,效果槓槓的。

論文地址:https://arxiv.org/abs/2405.00448