Meta聯合滑鐵盧大學的研究人員近日共同發佈了一款名爲 MoCha 的全新 AI 系統,能夠通過簡單的文本描述生成帶有同步語音和自然動作的完整動畫角色。這一創新技術有望極大地提升內容創作的效率和表現力,並在多個領域展現出巨大的應用潛力。
打破傳統,全身動畫與精準口型同步
與以往側重於面部表情的 AI 模型不同,MoCha 的獨特之處在於能夠渲染全身的自然運動。無論是從近距離還是半近距離拍攝,系統都能根據文本內容生成包括 脣部同步、手勢以及多角色之間的互動 等細膩動作。早期的演示主要集中在上半身,展示了系統如何使角色的口型與對話內容精準匹配,肢體語言也與文本所表達的含義自然契合。
爲了實現更精確的脣部同步,研究團隊創新性地引入了 “語音-視頻窗口注意力”機制。這一機制有效地解決了 AI 視頻生成中長期存在的兩大挑戰:音頻保持完整分辨率時視頻處理過程中的信息壓縮,以及並行視頻生成時容易出現的口型錯位問題。其核心原理在於 限制每一幀畫面只能訪問特定窗口範圍內的音頻數據。這種方法模仿了人類語音的運作方式——口部動作依賴於即時聲音,而肢體語言則跟隨更廣泛的文本模式。通過在每幀音頻前後添加標記,MoCha 能夠生成更流暢的過渡和更準確的脣語同步效果。
多角色輕鬆管理,提示系統簡潔高效
在處理包含多個角色的場景時,MoCha 團隊開發了一套 簡潔高效的提示系統。用戶只需 定義一次角色信息,便可以通過簡單的標籤(如 ‘Person1’,‘Person2’)在不同的場景中引用這些角色。這種方式避免了重複描述角色的繁瑣過程,使得多角色動畫的創作更加便捷。
性能卓越,超越同類系統
經過在150種不同場景下的測試,MoCha 在脣部同步和自然動作質量方面均優於同類系統。獨立評估人員對 MoCha 生成的視頻的逼真度給予了高度評價。測試結果表明,MoCha 在各項指標上都展現出超越競爭對手的實力。
Meta 的研究團隊認爲,MoCha 在 數字助理、虛擬化身、廣告和教育內容 等領域都展現出巨大的應用潛力。然而,Meta 尚未透露該系統是否會開源,或者仍將作爲研究原型存在。值得注意的是,MoCha 的開發正值各大社交媒體公司競相發展 AI 驅動視頻技術的關鍵時期。
此前,Meta 已經推出了 MovieGen,而 TikTok 的母公司字節跳動也在積極研發其自身的 AI 動畫系統,包括 INFP、OmniHuman-1和 Goku. 這場 AI 視頻技術的競賽,無疑將加速相關技術的進步和應用普及。