近年來,隨着人工智能和計算機視覺技術的迅猛發展,人與計算機之間的交互變得越來越生動和富有表現力。尤其是在動畫製作領域,如何實現基於靜態圖像生成動態視頻一直是研究的熱點。
近日,一項名爲 “DisPose” 的新技術應運而生,它通過解耦姿態指導,實現了更加可控的人物圖像動畫效果。簡單的說,DisPose實現了輸入動作視頻和參考人物,可以讓參考人物實現視頻裏的動作。
DisPose 技術的核心在於其對傳統稀疏姿態信息的重構與利用。傳統方法多依賴於稀疏的骨骼姿態指導,這在動態生成視頻時往往無法提供足夠的控制信號,導致動畫效果不夠精細。爲了彌補這一不足,DisPose 提出了一種全新的方法,通過將稀疏的姿態信息轉化爲運動場指導和關鍵點對應關係,實現了更加細緻的運動生成。
具體來說,DisPose 首先通過對骨骼姿態計算稀疏運動場,並基於參考圖像引入了一種密集運動場的生成方式。這一方式不僅提供了區域級別的運動信號,還保持了稀疏姿態控制的普遍性。同時,DisPose 還從參考圖像中提取與姿態關鍵點相對應的擴散特徵,然後通過計算多尺度的點對應關係,將這些特徵傳遞到目標姿態,以增強外觀的一致性。
爲了使這一創新技術能夠順利融入現有模型中,研究人員還提出了一種插件式的混合 ControlNet 架構。這一架構在不改變現有模型參數的基礎上,提高了生成視頻的質量和一致性。通過廣泛的定性和定量實驗,DisPose 展現出相較於當前技術的顯著優勢,預示着動畫製作技術的未來發展方向。
DisPose 通過優化姿態信息的利用方式,提升了人像動畫的表現力與控制性。這一進展不僅在學術研究上具有重要意義,也爲未來的動畫產業帶來了新的可能性。
項目入口:https://lihxxx.github.io/DisPose/
劃重點:
📍 DisPose 是一種新的人像動畫技術,通過解耦姿態指導實現更精確的動態生成。
🎨 該技術將稀疏姿態信息轉化爲運動場指導和關鍵點對應,提供細緻的運動信號。
🔧 研究者提出的混合 ControlNet 架構能有效提高生成視頻的質量和一致性。