騰訊發佈了一款創新技術 ——HunyuanVideo-Avatar 語音數字人模型,並將其開源。這一技術能夠僅憑一張圖片和一段音頻,生成自然、真實的數字人說話或唱歌視頻,標誌着短視頻創作進入了全新階段。
HunyuanVideo-Avatar 模型的核心功能在於其智能理解能力。用戶只需上傳一張人物圖像和相應的音頻,模型便能自動分析音頻中的情感和人物所處環境。例如,如果上傳一張在海灘上彈吉他的女性的照片,並搭配抒情音樂,模型將自動生成一段該女性在彈唱的動態視頻,展現自然的表情、脣形同步及全身動作。
適用廣泛的應用場景
這一技術的應用場景非常廣泛,涵蓋短視頻創作、電商廣告等多種領域。HunyuanVideo-Avatar 能夠生成各種場景下的對話、表演等視頻片段,極大地降低了視頻製作的時間和成本。無論是快速製作產品介紹視頻,還是進行多人互動廣告,HunyuanVideo-Avatar 都能提供出色的支持。
業內領先的效果
在技術方面,HunyuanVideo-Avatar 展現了顯著的優勢。與傳統工具相比,HunyuanVideo-Avatar 不僅支持頭部驅動,還能實現半身和全身場景的表現,提升視頻的真實感和表現力。同時,模型在主體一致性和音畫同步方面的表現超越了多種開閉源方案,處於業內頂尖水平。
多樣化的風格支持
HunyuanVideo-Avatar 支持多種風格、物種和多人場景,包括賽博朋克、2D 動漫和中國水墨畫等。創作者可以輕鬆上傳卡通角色或虛擬形象,生成風格化的動態視頻,滿足動漫、遊戲等領域的創作需求。此外,在多人互動場景中,模型能夠精準驅動多個角色,確保各角色的脣形、表情和動作與音頻完美同步,實現自然的互動。
這一切的背後是騰訊混元團隊與騰訊音樂天琴實驗室共同研發的技術創新,包括角色圖像注入模塊、多模態擴散 Transformer 架構、音頻情感模塊和麪部感知音頻適配器等,確保了視頻的動態性和角色一致性。
HunyuanVideo-Avatar 的單主體能力已在騰訊混元官網上線,用戶可以通過 “模型廣場” 體驗這一技術。目前支持上傳不超過14秒的音頻生成視頻,未來還將逐步推出更多功能。
體驗入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
項目主頁:https://hunyuanvideo-avatar.github.io
Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar