AI對口型項目EchoMimic：音頻+角色照片生成生動配嘴型視頻

在AI視頻對口型領域，螞蟻集團以及相關研究團隊出品了一款類似之前阿里的Emo的新技術，提供音頻和角色照片就能根據音頻內容生成生動對口型視頻。

產品入口：https://top.aibase.com/tool/echomimic

EchoMimic技術以其創新性的方法，解決了傳統音頻驅動或面部關鍵點驅動方法的侷限性，實現了更加逼真和動態的人像生成。

傳統方法在處理音頻信號較弱或對面部關鍵點信息過度控制時，往往會產生不穩定或不自然的結果。EchoMimic通過同時利用音頻和麪部特徵，採用新穎的訓練策略，克服了這些挑戰。這種方法不僅能夠獨立使用音頻或面部特徵生成人像視頻，還能通過兩者的結合，創造出更加細膩和真實的動畫效果。

EchoMimic的技術核心在於其能夠精確捕捉音頻信號和麪部特徵之間的關聯，並以此爲基礎生成動畫。在訓練過程中，EchoMimic採用了先進的數據融合技術，確保了音頻和麪部特徵的有效整合，從而提高了動畫的穩定性和自然度。可以看看下方EchoMimic官方展示的部分示例:

中英文對口型效果:

唱歌效果:

另外，EchoMimic 不僅能夠單獨生成音頻和麪部特徵，還可以通過音頻和選定的面部特徵的組合來生成人像視頻，支持指定表情參考視頻（landmarks）來控制角色面部表情，音頻 + 選定臉部區域控制表情示例如下:

經過與多個公共數據集和自收集數據集中的替代算法進行的全面比較，EchoMimic在定量和定性評估方面均展現出卓越的性能。這一點在EchoMimic項目頁面上的可視化效果中得到了充分體現。

隨着技術的不斷進步和應用的深入，EchoMimic有望在未來的人像動畫領域發揮更大的作用。

劃重點:
🎙️ **音頻與面部特徵融合**:EchoMimic通過結合音頻信號和麪部關鍵點信息，創造出更逼真的人像動畫。
🔧 **新穎的訓練策略**:該技術採用創新的訓練方法，提高了動畫的穩定性和自然度。
🏆 **卓越性能表現**:在與多種數據集中的替代算法比較中，EchoMimic在定量和定性評估方面均表現優異。

百度稱蘿蔔快跑安全水平接近C919飛機已接入ApolloADFM大模型

蘿蔔快跑發佈第六代無人車，集成全球首個人工智能大模型ApolloADFM，支持L4級自動駕駛。百度宣稱該系統安全性超過人類駕駛員10倍，媲美國產大飛機，保險保障乘客安全。據數據，相比人類司機，其出險率降低約9倍。兩年運行超過1億公里，無重大事故。通過應對武漢複雜交通，實現城市全域全時空無人服務，惠及近50%武漢市民。

三家歐洲汽車製造商將集成ChatGPT功能提升駕駛體驗

Stellantis集團的法國標緻、德國歐寶與英國沃克斯豪爾三大歐洲汽車品牌將引入ChatGPT人工智能技術，通過SoundHound的ChatAI系統，提供導航、通訊、體育與天氣等多種功能，無需駕駛者手動操作，提升了駕駛便利與安全性。技術在七月底將覆蓋17個國家和12種主要語言市場，預期顯著改善用戶體驗。此次合作標誌着Stellantis在汽車科技領域的引領地位，並預示着語音助手技術將來可能成爲行業主流趨勢，各大品牌如大衆與奧迪等均在探索技術集成。

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

視覺語言模型（VLMs）如GPT-4o、Gemini-1.5Pro等，已展示了在圖像與文本處理上的優異表現，甚至在視覺理解測試中成績亮眼。然而，新近研究揭示出，這些AI在本質上並未達到完全模擬人類視覺理解的能力。一份名爲“BlindTest”的測試結果顯示，這些高級模型在識別基本圖形關係（如判定圖示中線條交集、圖形重疊）等方面，準確率平均僅達56.20%，最高僅73.77%，遠低於人類的出色表現。這一發現呈現了一個關鍵現象——VLMs的“視”如同近視者，難以精準捕捉並理解圖像中細節和精確的空間關係，如判斷兩個圓是否相交或數數圖像中的具體圓圈數量時，普遍存在偏差。特別是，當圖像中圓圈數量脫離“5”這個數值時，模型偶有“偏好”，顯示其在數量識別上的侷限性。這些發現挑戰了公衆對VLMs能力的認知，揭示了AI在圖像語義理解方面的侷限性，並提醒我們人工智能在視覺理解能力方面仍存在顯著的待解決問題。

沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色

沃爾瑪在VB Transform2024活動上展示了在生成AI領域的最新進展，側重於運用AI技術提高客戶體驗、增強運營效率。公司強調自動化的決策過程中，人類監督的價值，以確保信息準確性及品牌聲譽，同時實施策略監控和錯誤修正機制，以最低化風險。其AI戰略以構建靈活的技術基礎爲目標，能快速迭代並實驗證據。沃爾瑪通過AI技術的應用實踐，展示瞭如何結合技術創新與自動化提升業務效率期間，保持人類在決策過程中的關鍵角色，這一策略不僅加速了公司發展，也爲行業提供了AI應用的寶貴參考和實踐經驗。引領着全球零售業在AI技術層面的發展路徑。

AI對口型項目EchoMimic：音頻+角色照片生成生動配嘴型視頻

相關推薦

百度稱蘿蔔快跑安全水平接近C919飛機已接入ApolloADFM大模型

Apple Intelligence 是如何改變你在 iPhone 上使用 Siri 的方式

三家歐洲汽車製造商將集成ChatGPT功能提升駕駛體驗

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色

AI對口型項目EchoMimic：音頻+角色照片生成生動配嘴型視頻

相關推薦

百度稱蘿蔔快跑安全水平接近C919飛機 已接入ApolloADFM大模型

Apple Intelligence 是如何改變你在 iPhone 上使用 Siri 的方式

三家歐洲汽車製造商將集成ChatGPT功能 提升駕駛體驗

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

​沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色

百度稱蘿蔔快跑安全水平接近C919飛機已接入ApolloADFM大模型

三家歐洲汽車製造商將集成ChatGPT功能提升駕駛體驗

沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色