在3d數字人領域,儘管已有顯著進展,但此前的方法仍存在多視角一致性及情感表現力不足的問題。爲解決這些難題,來自南京大學、復旦大學和華爲諾亞方舟實驗室的研究團隊有了新突破。
產品入口:https://nju-3dv.github.io/projects/EmoTalk3D/
他們收集了帶有校準多視角視頻、情感標註和逐幀3D 幾何的 EmoTalk3D 數據集。並提出了一種用於合成具有可控情感的3D 說話頭像的新方法,在脣同步和渲染質量方面都有顯著提升。
數據集:
通過在 EmoTalk3D 數據集上進行訓練,研究團隊構建了一個“從語音到幾何再到外觀”的映射框架。首先從音頻特徵預測出逼真的3D 幾何序列,然後基於預測的幾何合成由4D 高斯表示的3D 說話頭像的外觀。外觀進一步分解爲標準和動態高斯,從多視角視頻中學習,並融合以呈現自由視角的說話頭像動畫。
該模型能夠在生成的說話頭像中實現可控情感,並可在大範圍視角中進行渲染。在捕捉皺紋和細微表情等動態面部細節的同時,展現出了在脣動生成方面改進的渲染質量和穩定性。在生成結果的示例中,精準的展示了3D數字人的開心、生氣、沮喪的表情。
其整體流程包含五個模塊:
一是情感內容分解編碼器,從輸入語音中解析內容和情感特徵;二是語音到幾何網絡,從特徵預測動態3D 點雲;三是高斯優化和完成模塊,建立標準外觀;四是幾何到外觀網絡,基於動態3D 點雲合成面部外觀;五是渲染模塊,將動態高斯渲染爲自由視角動畫。
此外,他們還建立了 EmoTalk3D 數據集,這是一個帶有逐幀3D 面部形狀的情感標註多視角說話頭像數據集,並將爲非商業研究目的向公衆開放。
劃重點:
💥 提出合成可控情感數字人的新方法。
🎯 構建“從語音到幾何再到外觀”的映射框架。
👀 建立 EmoTalk3D 數據集並準備開放。