英偉達開源 Audio2Face 模型，AI 助力實時面部動畫生成

近日，英偉達宣佈開源其生成式 AI 面部動畫模型 Audio2Face。這一模型不僅包含了核心算法，還提供了軟件開發工具包（SDK）和完整的訓練框架，旨在加速遊戲和3D 應用中智能虛擬角色的開發。

Audio2Face 通過分析音頻中的音素、語調等聲學特徵，能夠實時驅動虛擬角色的面部動作，生成精確的口型同步和自然的情感表情。這項技術廣泛適用於遊戲、影視製作和客戶服務等多個領域。

Audio2Face 模型支持兩種運行模式:一種是針對預錄製音頻的離線渲染，另一種則是支持動態 AI 角色的實時流式處理。爲了方便開發者使用，英偉達還開源了多個關鍵組件，包括 Audio2Face SDK、適用於 Autodesk Maya 的本地執行插件，以及針對 Unreal Engine5.5及以上版本的插件。此外，迴歸模型和擴散模型也隨之開源，開發者可以利用開源訓練框架，使用自己的數據對模型進行微調，從而適應特定的應用場景。

目前，這項技術已經被多家遊戲開發商廣泛採用。遊戲開發公司 Survios 在其遊戲《異形:俠盜入侵進化版》中集成了 Audio2Face，從而大幅簡化了口型同步與面部捕捉的流程。而 Farm51工作室也在其作品《切爾諾貝利人2:禁區》中應用了這一技術，通過音頻直接生成細膩的面部動畫，節省了大量製作時間，提升了角色的真實感和沉浸體驗。該工作室的創新總監 Wojciech Pazdur 對此表示，這一技術可謂 “革命性突破”。

英偉達的這一新舉措無疑爲開發者們提供了更多的創作工具，也將推動虛擬角色表現的進一步發展。隨着技術的不斷進步，我們可以期待在未來的遊戲和影視作品中看到更加真實和生動的角色表現。

入口:https://build.nvidia.com/nvidia/audio2face-3d

劃重點:
🔊 英偉達開源 Audio2Face 模型，旨在提升虛擬角色的面部動畫生成技術。
🎮 支持離線渲染和實時流式處理，適用於多種場景。
🌟 已被多個遊戲開發商採用，簡化了製作流程並提升了角色的真實感。

英偉達雙塔 AI 模型開源發佈，文本生成速度提升 2.42 倍、畫質保留 98.7%

英偉達發佈Nemotron-Labs-TwoTower離散擴散語言模型，解決大模型逐token生成速度慢的痛點，權重已在Huggingface開源。該模型複用現有骨幹網預訓練權重，無需從頭訓練，顯著降低成本。採用60B雙塔架構，兩座30B網絡並行協同，每塔激活3B參數並搭載128個可路由專家模塊，提升生成效率。

英偉達開源 Audio2Face 模型，AI 助力實時面部動畫生成

相關推薦

微軟測試iPad版Word新版本:深度整合Copilot AI助手輔助文檔編輯

谷歌相冊推出AI“視頻混音”功能：搭載Gemini Omni，主打數秒內電影級剪輯

15 歲少年利用AI實施勒索攻擊，致知名平臺全站停服

英偉達雙塔 AI 模型開源發佈，文本生成速度提升 2.42 倍、畫質保留 98.7%

AI 互動釀成悲劇：用戶起訴 OpenAI，稱 ChatGPT 加劇其心理病情

​英偉達開源 Audio2Face 模型，AI 助力實時面部動畫生成

相關推薦

微軟測試iPad版Word新版本:深度整合Copilot AI助手輔助文檔編輯

谷歌相冊推出AI“視頻混音”功能：搭載Gemini Omni，主打數秒內電影級剪輯

15 歲少年利用AI實施勒索攻擊，致知名平臺全站停服

英偉達雙塔 AI 模型開源發佈，文本生成速度提升 2.42 倍、畫質保留 98.7%

AI 互動釀成悲劇：用戶起訴 OpenAI，稱 ChatGPT 加劇其心理病情

英偉達開源 Audio2Face 模型，AI 助力實時面部動畫生成