近日,一項名爲EmoTalk3D的前沿技術項目在人工智能領域引起了廣泛關注。該項目通過引入一個包含校準的多視圖視頻、情感標註及每幀3D幾何圖形的數據集——EmoTalk3D數據集,成功實現了在高保真度下自由合成情感豐富的3D說話頭像的突破。

QQ截圖20240807110705.png

據瞭解,EmoTalk3D項目的研究團隊針對當前3D說話頭像技術在多視圖一致性和情感表達方面的不足,提出了一種全新的合成方法。該方法不僅具有增強的脣部同步和渲染質量,還能在生成的說話頭像中實現可控的情緒表達。

研究團隊設計了一個“語音到幾何到外觀”的映射框架。該框架首先從音頻特徵中預測出忠實的3D幾何序列,然後基於這些幾何圖形合成由4D高斯表示的3D說話頭像的外觀。這一過程中,外觀被進一步分解爲規範和動態高斯分量,通過從多視圖視頻中的學習,二者得以融合,從而渲染出自由視圖的說話頭像動畫。

值得一提的是,EmoTalk3D項目的研究團隊還成功解決了先前方法在捕捉動態面部細節方面的難題,如皺紋和細微表情的呈現。實驗結果表明,該方法在生成高保真和情緒可控的3D說話頭像方面具有顯著優勢,同時在脣部運動生成中展現出了更好的渲染質量和穩定性。

目前,EmoTalk3D項目的代碼和數據集已在指定的HTTPS URL上發佈,供全球的研究人員和開發者們參考和使用。這一創新性的技術突破無疑將爲3D說話頭像領域的發展注入新的活力,並有望在未來應用於虛擬現實、增強現實、影視製作等多個領域。