阿里通義實驗室近日發佈了一款名爲 “OmniTalker” 的新型數字人視頻生成大模型。這一創新模型的核心在於其能夠通過上傳一段參考視頻,實現對視頻中人物的表情、聲音和說話風格的精準模仿。相較於傳統的數字人制作流程,OmniTalker 顯著降低了製作成本,同時提升了生成內容的真實感和互動體驗,滿足了廣泛的應用需求。
OmniTalker 的使用十分簡便,用戶只需在平臺上上傳一段參考視頻,就能生成與之同步的音頻和視頻內容。目前,該項目已在魔搭社區和 HuggingFace 等平臺開放體驗,並提供了多種模板供用戶自由使用,完全免費。爲了讓人們更直觀地感受到這一技術的強大,阿里通義實驗室展示了幾段示例視頻,觀衆幾乎無法分辨出視頻中的人物是由 AI 生成的還是實拍的,這讓人感到震撼。
該模型的研發背景源於近年來語言大模型的迅猛發展,虛擬主播和虛擬助手的應用越來越廣泛。然而,以往的文本驅動數字人生成研究相對較少,且傳統方法通常採用級聯流水線的方式,容易導致音畫不同步、說話風格不一致等問題。OmniTalker 通過引入雙分支 DiT 架構,能夠同時從文本和參考視頻中生成同步的語音和視頻,從而克服了這些技術瓶頸。
在模型結構方面,OmniTalker 的設計由三大核心部分構成。首先,模型能夠提取音頻特徵和視覺特徵,確保兩者在時間上的完美同步;其次,採用多模態特徵融合模塊,提升了音頻和視頻的整合效果;最後,經過預訓練的解碼器能夠高效將合成的音視頻特徵轉換爲原始格式,保證輸出的高質量。
通過實驗數據的對比,OmniTalker 在音頻生成和視覺效果方面都表現出色,顯示出更低的錯誤率和更高的聲音相似度,進一步證明了其在零樣本條件下的強大能力。
項目頁:https://top.aibase.com/tool/omnitalker
論文:https://arxiv.org/abs/2504.02433v1
體驗頁:https://huggingface.co/spaces/Mrwrichard/OmniTalker