在AI視頻對口型領域,螞蟻集團以及相關研究團隊出品了一款類似之前阿里的Emo的新技術,提供音頻和角色照片就能根據音頻內容生成生動對口型視頻。

image.png

產品入口:https://top.aibase.com/tool/echomimic

EchoMimic技術以其創新性的方法,解決了傳統音頻驅動或面部關鍵點驅動方法的侷限性,實現了更加逼真和動態的人像生成。

傳統方法在處理音頻信號較弱或對面部關鍵點信息過度控制時,往往會產生不穩定或不自然的結果。EchoMimic通過同時利用音頻和麪部特徵,採用新穎的訓練策略,克服了這些挑戰。這種方法不僅能夠獨立使用音頻或面部特徵生成人像視頻,還能通過兩者的結合,創造出更加細膩和真實的動畫效果。

EchoMimic的技術核心在於其能夠精確捕捉音頻信號和麪部特徵之間的關聯,並以此爲基礎生成動畫。在訓練過程中,EchoMimic採用了先進的數據融合技術,確保了音頻和麪部特徵的有效整合,從而提高了動畫的穩定性和自然度。可以看看下方EchoMimic官方展示的部分示例:

中英文對口型效果:

唱歌效果:

另外,EchoMimic 不僅能夠單獨生成音頻和麪部特徵,還可以通過音頻和選定的面部特徵的組合來生成人像視頻,支持指定表情參考視頻(landmarks)來控制角色面部表情,音頻 + 選定臉部區域控制表情示例如下:

經過與多個公共數據集和自收集數據集中的替代算法進行的全面比較,EchoMimic在定量和定性評估方面均展現出卓越的性能。這一點在EchoMimic項目頁面上的可視化效果中得到了充分體現。

隨着技術的不斷進步和應用的深入,EchoMimic有望在未來的人像動畫領域發揮更大的作用。

劃重點:

🎙️ **音頻與面部特徵融合**:EchoMimic通過結合音頻信號和麪部關鍵點信息,創造出更逼真的人像動畫。

🔧 **新穎的訓練策略**:該技術採用創新的訓練方法,提高了動畫的穩定性和自然度。

🏆 **卓越性能表現**:在與多種數據集中的替代算法比較中,EchoMimic在定量和定性評估方面均表現優異。