震驚！你的AI聊天對象竟然偷偷學會了“讀心術”！—

近日，一項名爲INFP（Interactive， Natural， Flash and Person-generic）的新技術引起了廣泛關注。這項技術旨在解決當前AI虛擬頭像在雙人對話中存在的互動不足問題，讓虛擬人物在對話時能像真人一樣，根據對話內容動態調整表情和動作。

告別“單口相聲”，迎接“雙人合唱”

以前的AI頭像，要麼只能自說自話，像個“單口相聲”演員，要麼就是隻會傻傻地聽着，沒有任何反饋，像個“木頭人”。但是，我們人類的對話可不是這樣的!我們說話的時候，眼睛會看着對方，還會不時點頭、皺眉，甚至插科打諢一下，這纔是真正的互動啊!

而INFP的出現，就是要徹底改變這種尷尬的局面!它就像一個“雙人合唱”的指揮家，能根據你和AI的對話音頻，動態地調整AI頭像的表情和動作，讓你感覺就像在和真人對話一樣!

INFP的“獨門祕籍”:兩大絕招，缺一不可!

INFP之所以這麼厲害，主要歸功於它的兩大“獨門祕籍”:

動作模仿大師（Motion-Based Head Imitation）:

它會先從大量的真實對話視頻中學習人類的表情和動作，就像一個“動作模仿大師”，把這些複雜的行爲壓縮成一個個“動作密碼”。

爲了讓動作更真實，它還會特別關注眼睛和嘴巴這兩個“表情擔當”，就像給它們上了“特寫鏡頭”一樣。

它還會使用人臉關鍵點來輔助表情的生成，確保動作的準確性和自然性。

然後，它把這些“動作密碼”應用到一個靜態的頭像上，讓頭像瞬間“活”過來，簡直就像魔法一樣!

音頻驅動的動作生成器（Audio-Guided Motion Generation）:

這個“生成器”更厲害，它能聽懂你和AI的對話音頻，就像一個“聽聲辨位”的高手。

它會分析音頻中誰在說話、誰在聽，然後動態調整AI頭像的狀態，讓它在“說”和“聽”之間自由切換，完全不用手動切換角色。

它還配備了兩個“記憶庫”，分別儲存“說話”和“聽”時的各種動作，就像兩個“百寶箱”，隨時提取最合適的動作。

它還能根據你的聲音風格，調整AI頭像的情緒和態度，讓對話更生動有趣。

最後，它還會利用一種叫做“擴散模型”的技術，把這些動作變成平滑自然的動畫，讓你感覺不到任何卡頓。

DyConv:一個充滿“八卦”的超大對話數據集!

爲了訓練INFP這個“超級AI”，研究人員還特意收集了一個超大規模的對話數據集，名叫 DyConv!

這個數據集裏，有超過200小時的對話視頻，裏面的人來自五湖四海，聊的內容也是五花八門，簡直就是個“八卦集中營”。

DyConv數據集的視頻質量非常高，確保每個人的臉都清晰可見。

研究人員還使用了最先進的語音分離模型，把每個人的聲音都單獨提取出來，方便AI學習。

INFP的“十八般武藝”:不僅能對話，還能...

INFP不僅能在雙人對話中大顯身手，還能在其他場景中發光發熱:

“聽話”模式（Listening Head Generation）:它可以根據對方的說話內容，做出相應的表情和動作，就像一個“認真聽講”的好學生。

“復讀機”模式（Talking Head Generation）:它可以根據音頻，讓頭像做出逼真的口型，就像一個“口技表演”大師。

爲了證明INFP的強大，研究人員進行了大量的實驗，結果表明:

在各種指標上，INFP都碾壓了其他同類方法，例如在視頻質量、脣音同步和動作多樣性等方面，都取得了非常優異的成績。

在用戶體驗方面，參與者也一致認爲，INFP生成的視頻更加自然、生動，而且與音頻的匹配度更高。

研究人員還做了消融實驗，證明了 INFP 中的每個模塊都是必不可少的。

項目地址：https://grisoon.github.io/INFP/

英國AI視頻平臺Synthesia獲得 1.8 億美元融資

近日，英國人工智能視頻生成公司 Synthesia 宣佈完成1.8億美元的 D 輪融資。自2017年成立以來，Synthesia 已經成爲行業內的佼佼者，服務超過一半的《財富》100強企業，每月製作數百萬分鐘的 AI 生成視頻內容。公司致力於幫助企業高效地創建視頻和虛擬頭像，提升他們的溝通效率和內容傳播能力。獲得這筆資金後，Synthesia 計劃進一步開發新功能，將 AI 虛擬頭像與大型語言模型結合，推出全新的視頻播放器。公司表示，這些升級將使客戶能夠製作更加互動和個性化的視頻內容，以滿足日益增長

D-ID推超逼真AI虛擬頭像：進行視頻訓練就能復刻頭部和軀幹動作

人工智能視頻平臺 D-ID 今日宣佈推出兩款新型虛擬頭像 ——Express 和 Premium+，旨在提升內容創作的質量和效率。如今，越來越多的企業希望藉助更加人性化的 AI 頭像來減輕視頻製作的負擔，特別是在市場營銷、銷售和客戶支持等領域。D-ID 的新模型就是爲了在這一競爭激烈的市場中搶佔一席之地。Express 頭像的訓練時間僅需約一分鐘的視頻，能夠在用戶講話時複製其頭部動作。而 Premium + 則是公司的旗艦模型，需要至少幾分鐘的錄製，以生成可以在視頻中展示手部和軀幹動作的 AI 頭像。D-I

Ollama 0.2 發佈：默認啓用併發同時處理多個請求和加載多個模型

Ollama 0.2版本發佈，新特性包括默認啓用併發功能，允許同時處理多請求，提升用戶體驗。該更新增加了並行請求與不同模型的並行加載能力，優化了處理任務效率，支持多任務處理，包括聊天會話、代碼完成與文檔處理等。同時，系統增加了模型自動加載與卸載功能，根據GPU內存使用動態調整，確保穩定與高效運行。這次更新使得Ollama變得更強大與智能，帶來了更優質的使用體驗。欲體驗新版本，可訪問官方下載地址：https://ollama.com/download。

Adobe推新AI音頻具Sketch2Sound ，只需哼唱和模仿聲音就能創建音效

近日，Adobe Research 與西北大學合作開發了一款名爲 Sketch2Sound 的人工智能系統，這一工具有望徹底改變聲音設計師的工作方式。Sketch2Sound 能夠讓用戶通過哼唱、模仿聲音以及用簡單的文本描述來創建專業的音效和氛圍音。這個系統分析了用戶聲帶輸入的三個關鍵要素:音量、音色（決定聲音的明亮或陰暗）和音高。隨後，它將這些特徵與用戶的文本描述相結合，從而生成所需的聲音。例如，用戶在輸入 “森林氛圍” 併發出短促的聲響時，系統會自動將這些聲響識別爲鳥鳴，而無需具體的指

Adobe推出新AI工具可讓聲音設計師通過哼唱和模仿聲音來創作音頻

Adobe Research與西北大學聯合開發出一項突破性的AI系統Sketch2Sound，該技術能將簡單的人聲模仿和文字描述轉化爲專業級音效，有望徹底改變聲音設計行業的工作方式。該系統會分析語音輸入的三個關鍵元素:響度、音色（決定聲音的明亮程度）和音調。然後，系統會將這些特徵與文本描述相結合，生成所需的聲音。視頻:García 等人，Adobe ResearchSketch2Sound 的有趣之處在於它能夠理解上下文。例如，如果有人輸入“森林氛圍”併發出短促的聲音，系統會自動識別出這些聲音應該是鳥叫聲 - 而無需

震驚！你的AI聊天對象竟然偷偷學會了“讀心術”！—— INFP帶你解鎖雙人對話新姿勢

相關推薦

英國AI視頻平臺Synthesia獲得 1.8 億美元融資

D-ID推超逼真AI虛擬頭像：進行視頻訓練就能復刻頭部和軀幹動作

Ollama 0.2 發佈：默認啓用併發同時處理多個請求和加載多個模型

Adobe推新AI音頻具Sketch2Sound ，只需哼唱和模仿聲音就能創建音效

Adobe推出新AI工具可讓聲音設計師通過哼唱和模仿聲音來創作音頻

震驚！你的AI聊天對象竟然偷偷學會了“讀心術”！—— INFP帶你解鎖雙人對話新姿勢

相關推薦

英國AI視頻平臺Synthesia獲得 1.8 億美元融資

D-ID推超逼真AI虛擬頭像：進行視頻訓練就能復刻頭部和軀幹動作

Ollama 0.2 發佈：默認啓用併發 同時處理多個請求和加載多個模型

Adobe推新AI音頻具Sketch2Sound ，只需哼唱和模仿聲音就能創建音效

Adobe推出新AI工具 可讓聲音設計師通過哼唱和模仿聲音來創作音頻

Ollama 0.2 發佈：默認啓用併發同時處理多個請求和加載多個模型

Adobe推出新AI工具可讓聲音設計師通過哼唱和模仿聲音來創作音頻