近日,字節跳動開發了一款名爲PersonaTalk的AI模型,該模型可以爲視頻精準配音。
這項技術不僅能夠實現聲音與嘴型的完美同步,還能在生成新視頻時保留人物的原始說話風格、面部特徵和表情,使得視頻看起來更加真實自然。
PersonaTalk的核心能力包括:
聲音同步嘴型:PersonaTalk能夠確保在給視頻添加新聲音時,人物的嘴部動作與新語音的口型完全匹配。這意味着,無論視頻中的人物是說話、微笑還是做出其他面部表情,他們的嘴脣動作都能與新的語音完美同步,就像他們真的在說出那些話一樣。
保留人物特點:在創建新視頻內容時,PersonaTalk會盡量保留視頻中人物的原有特點,包括他們的說話方式、臉型和表情等。這種保留個性特徵的能力,使得使用PersonaTalk技術生成的視頻能夠保持高度的真實感和自然感,避免出現僵硬或不協調的情況。
適用於不同人物:與傳統的配音技術不同,PersonaTalk不需要大量的數據來單獨訓練每一個特定的人物。這使得該技術能夠適應不同的人物和多樣化的場景,爲視頻製作提供了更大的靈活性和便利性。
PersonaTalk是一個基於注意力機制的兩階段框架,包括幾何結構和人臉渲染兩部分。在第一階段,它使用混合幾何估計方法從參考視頻中提取說話者的面部幾何係數。
然後,它從目標音頻中提取並編碼音頻特徵,並從幾何統計特徵中學習個性化說話風格,將其注入音頻特徵中。 它根據參考視頻的幾何係數和目標音頻生成與目標音頻口型同步且保留個性化說話風格的目標幾何圖形。
在第二階段,它使用雙重注意力機制的人臉渲染器合成目標說話人臉,並使用精心設計的參考選擇策略,生成與目標幾何圖形口型同步的人臉。
該模型通過從參考視頻中學習說話者的說話風格,並將其應用於目標音頻的配音中,從而實現高度個性化的配音效果。 此外,它還採用了一種雙重注意力機制的人臉渲染器,可以分別對嘴脣和麪部其他區域進行紋理採樣,從而更好地保留面部細節,並消除常見的牙齒閃爍和粘連僞影。
實驗結果表明,與其他最先進的模型相比,PersonaTalk在視覺質量、口型同步精度和人物個性化保留方面均具有顯著優勢。
此外,作爲一個通用模型,PersonaTalk無需任何微調即可實現與特定人物模型相當的性能。
雖然PersonaTalk在人臉視頻配音方面取得了顯著的成果,但由於訓練數據的侷限性,該模型在驅動非人類化身(如卡通人物)方面的性能可能略低,並且在處理大幅度面部姿勢時可能會出現僞影。
爲了防止該技術被濫用,字節跳動計劃將核心模型的訪問權限限制在研究機構範圍內。
項目地址:https://grisoon.github.io/PersonaTalk/