近日,來自多倫多大學及向量研究所的研究團隊發佈了 CAP4D 模型,這是一種基於形變多視角擴散模型(MMDM)的新技術,能夠通過任意數量的參考圖像生成逼真的4D 頭像。

該模型採用雙階段方法,首先利用 MMDM 生成不同視角和表情的圖像,然後將這些生成的圖像與參考圖像結合,重建出一個可實時控制的4D 頭像。

在 CAP4D 的工作流程中,用戶可以輸入任意數量的參考圖像,這些圖像將被編碼到變分自編碼器的潛在空間中。接着,使用現成的面部追蹤技術 FlowFace 估計每張參考圖像的3D 形變模型(FLAME),從中提取出頭部姿態、表情及攝像機視角等信息。MMDM 則通過隨機採樣的方式,在每一步迭代生成過程中,結合輸入的參考圖像生成多個不同的圖像。

image.png

該研究團隊展示了 CAP4D 生成的各種頭像,涵蓋了單張參考圖像、少量參考圖像和挑戰性更大的從文本提示或藝術作品生成頭像的場景。通過使用多張參考圖像,模型能夠恢復出單張圖像中無法看到的細節與幾何形狀,從而提升了重建效果。此外,CAP4D 還具備與現有圖像編輯模型相結合的能力,使得用戶可以對生成的頭像進行外觀和光照的編輯。

image.png

爲了進一步提升頭像的表現力,CAP4D 能夠將生成的4D 頭像與語音驅動動畫模型結合,實現音頻驅動的動畫效果。這使得頭像不僅能夠展現靜態的視覺效果,還能通過聲音與用戶進行動態互動,開創了虛擬頭像應用的新領域。

劃重點:

🌟 CAP4D 模型能夠通過任意數量的參考圖像生成高質量的4D 頭像,採用雙階段工作流程。  

🖼️ 該技術可以生成多種不同視角的頭像,顯著提高了圖像重建效果和細節呈現。  

🎤 CAP4D 與語音驅動動畫模型相結合,實現音頻驅動的動態頭像,拓展了虛擬頭像的應用場景。