最近,中國科學技術大學的研究團隊推出了一款名爲 PortraitGen 的創新視頻編輯工具,只要輸入視頻,就可以實現文字修改人物效果、參考圖片修改人物效果,換衣,修改光照效果等多模態的人像編輯。
更令人興奮的是,這一切只需短短30分鐘,編輯後的人像視頻能夠以每秒100幀的速度流暢播放!
這項技術的核心在於追蹤 SMPL-X 係數,研究團隊首先對單目視頻進行追蹤,然後通過一種被稱爲神經高斯紋理的機制,構建出一個3D 高斯特徵場。
通過迭代更新數據集,用戶可以實現多樣化的人像編輯。特別值得一提的是,團隊還提出了一個 “面部意識編輯” 模塊,旨在提高表情質量並保留個性化的面部結構,編輯效果自然且細膩。
文本修改人物效果
PortraitGen 的編輯功能非常強大,用戶可以進行文本驅動和圖像驅動的編輯。
比如,文本驅動編輯使用了一種叫做 InstructPix2Pix 的2D 編輯模型,用戶只需輸入 RGB 圖像、文本指令和帶有噪聲的潛在圖像,系統便能根據這些信息進行精細的調整。
風格化編輯
而在圖像驅動編輯方面,團隊針對不同需求,採用了風格遷移和虛擬試穿等技術,讓用戶可以輕鬆地將風格轉移到視頻幀中,甚至實現換衣效果。
修改光照
更有趣的是,PortraitGen 還能夠根據用戶提供的光照描述來調節視頻幀的光照,使得整個視頻更加和諧美觀。
在與其他頂尖視頻編輯工具的對比中,PortraitGen 在提示保留、身份保留和時間一致性方面都表現得相當優越。
在技術細節上,PortraitGen 引入的神經高斯紋理技術,不同於以往的球諧係數方法,爲每個高斯點存儲可學習的特徵,使得編輯效果更爲豐富,能夠支持更復雜的樣式。
此外,通過人臉識別增強的編輯功能,以及優化表情一致性的表達,PortraitGen 展現了其在細緻人像編輯領域的強大潛力。
項目入口:https://top.aibase.com/tool/portraitgen
劃重點:
✨ PortraitGen 僅需30分鐘即可將2D 人像視頻編輯爲4D 高斯場,支持每秒100幀的流暢播放。
🎨 提供多種編輯方式,包括文本驅動和圖像驅動,讓視頻風格變換更加靈活多樣。
💡 通過面部意識編輯模塊,提升表情質量,並保留用戶個性化的面部特徵。