近日,一項名爲INFP(Interactive, Natural, Flash and Person-generic)的新技術引起了廣泛關注。這項技術旨在解決當前AI虛擬頭像在雙人對話中存在的互動不足問題,讓虛擬人物在對話時能像真人一樣,根據對話內容動態調整表情和動作。
告別“單口相聲”,迎接“雙人合唱”
以前的AI頭像,要麼只能自說自話,像個“單口相聲”演員,要麼就是隻會傻傻地聽着,沒有任何反饋,像個“木頭人”。但是,我們人類的對話可不是這樣的!我們說話的時候,眼睛會看着對方,還會不時點頭、皺眉,甚至插科打諢一下,這纔是真正的互動啊!
而INFP的出現,就是要徹底改變這種尷尬的局面!它就像一個“雙人合唱”的指揮家,能根據你和AI的對話音頻,動態地調整AI頭像的表情和動作,讓你感覺就像在和真人對話一樣!
INFP的“獨門祕籍”:兩大絕招,缺一不可!
INFP之所以這麼厲害,主要歸功於它的兩大“獨門祕籍”:
動作模仿大師 (Motion-Based Head Imitation):
它會先從大量的真實對話視頻中學習人類的表情和動作,就像一個“動作模仿大師”,把這些複雜的行爲壓縮成一個個“動作密碼”。
爲了讓動作更真實,它還會特別關注眼睛和嘴巴這兩個“表情擔當”,就像給它們上了“特寫鏡頭”一樣。
它還會使用人臉關鍵點來輔助表情的生成,確保動作的準確性和自然性。
然後,它把這些“動作密碼”應用到一個靜態的頭像上,讓頭像瞬間“活”過來,簡直就像魔法一樣!
音頻驅動的動作生成器 (Audio-Guided Motion Generation):
這個“生成器”更厲害,它能聽懂你和AI的對話音頻,就像一個“聽聲辨位”的高手。
它會分析音頻中誰在說話、誰在聽,然後動態調整AI頭像的狀態,讓它在“說”和“聽”之間自由切換,完全不用手動切換角色。
它還配備了兩個“記憶庫”,分別儲存“說話”和“聽”時的各種動作,就像兩個“百寶箱”,隨時提取最合適的動作。
它還能根據你的聲音風格,調整AI頭像的情緒和態度,讓對話更生動有趣。
最後,它還會利用一種叫做“擴散模型”的技術,把這些動作變成平滑自然的動畫,讓你感覺不到任何卡頓。
DyConv:一個充滿“八卦”的超大對話數據集!
爲了訓練INFP這個“超級AI”,研究人員還特意收集了一個超大規模的對話數據集,名叫 DyConv!
這個數據集裏,有超過200小時的對話視頻,裏面的人來自五湖四海,聊的內容也是五花八門,簡直就是個“八卦集中營”。
DyConv數據集的視頻質量非常高,確保每個人的臉都清晰可見。
研究人員還使用了最先進的語音分離模型,把每個人的聲音都單獨提取出來,方便AI學習。
INFP的“十八般武藝”:不僅能對話,還能...
INFP不僅能在雙人對話中大顯身手,還能在其他場景中發光發熱:
“聽話”模式 (Listening Head Generation):它可以根據對方的說話內容,做出相應的表情和動作,就像一個“認真聽講”的好學生。
“復讀機”模式 (Talking Head Generation):它可以根據音頻,讓頭像做出逼真的口型,就像一個“口技表演”大師。
爲了證明INFP的強大,研究人員進行了大量的實驗,結果表明:
在各種指標上,INFP都碾壓了其他同類方法,例如在視頻質量、脣音同步和動作多樣性等方面,都取得了非常優異的成績。
在用戶體驗方面,參與者也一致認爲,INFP生成的視頻更加自然、生動,而且與音頻的匹配度更高。
研究人員還做了消融實驗,證明了 INFP 中的每個模塊都是必不可少的。
項目地址:https://grisoon.github.io/INFP/