近日,字節跳動公司宣佈推出一種名爲 INFP 的人工智能系統,能夠讓靜態的人物肖像照片通過音頻輸入實現 “說話” 和反應。與傳統技術不同,INFP 無需手動指定說話和傾聽的角色,系統可以根據對話的流動自動判斷角色。

image.png

INFP 的工作流程分爲兩個主要步驟。第一步,稱爲 “基於運動的頭部模仿”,該系統通過分析人們在對話中的面部表情和頭部運動,從視頻中提取細節。這些運動數據會被轉化爲可以用於後續動畫的格式,使靜態照片能夠與原始人物的運動相匹配。

第二步是 “音頻引導運動生成”,系統則根據音頻輸入生成自然的運動模式。研究團隊開發了一種 “運動引導器”,該工具通過分析對話雙方的音頻,創建出說話和傾聽的運動模式。隨後,名爲擴散變換器的 AI 組件對這些模式進行逐步優化,從而生成流暢且真實的運動,完美契合音頻內容。

爲了對系統進行有效訓練,研究團隊還建立了一個名爲 DyConv 的對話數據集,彙集了200多個小時的真實對話視頻。與現有的對話數據庫(如 ViCo 和 RealTalk)相比,DyConv 在情感表達和視頻質量方面具有獨特優勢。

字節跳動表示,INFP 在多個關鍵領域的表現優於現有工具,特別是在與語音匹配的脣部運動、保留個體面部特徵以及創造多樣化自然動作方面。此外,該系統在生成僅聽對話者的視頻時同樣表現出色。

雖然目前 INFP 僅支持音頻輸入,研究團隊正在探索將系統擴展到圖像和文本的可能性,未來目標是能夠創建出人物全身的真實動畫。然而,考慮到這類技術可能被用於製造虛假視頻和傳播錯誤信息,研究團隊計劃將核心技術限制在研究機構使用,類似於微軟對其先進語音克隆系統的管理。

這項技術是字節跳動更廣泛 AI 戰略的一部分,依託其旗下的熱門應用 TikTok 和 CapCut,字節跳動擁有廣闊的 AI 創新應用平臺。

項目入口:https://grisoon.github.io/INFP/

劃重點:

🎤 INFP 可以讓靜態人像通過音頻實現 “說話”,自動判斷對話角色。

🎥 該系統通過兩個步驟工作:首先提取人類對話中的運動細節,其次將音頻轉換爲自然的運動模式。

📊 字節跳動的 DyConv 數據集包含超過200小時的高質量對話視頻,幫助提升系統性能。