李飛飛團隊推出了一種新的多模態模型,該模型能夠理解和生成人類的動作,並通過結合語言模型,實現了對口頭和非口頭語言的統一處理。 這一突破性的研究,使得機器不僅可以理解人類的指令,還能讀懂動作中蘊含的情緒,從而更自然地進行人機交互。

該模型的核心在於其多模態語言模型框架,能夠接收音頻、動作和文本等多種形式的輸入,並輸出所需的模態數據。 結合生成式預訓練策略,該模型在多個任務上展現出卓越的性能。 例如,在協同語音手勢生成方面,該模型不僅超越了現有技術水平,還顯著減少了訓練所需的數據量。 此外,該模型還解鎖了新的應用場景,如可編輯的手勢生成以及通過動作預測情緒.

image.png

人類交流本質上是多模態的,包括言語和非言語線索,如語音、面部表情和身體姿勢。 此模型能夠理解這些多模態行爲,對於創建在遊戲、電影和虛擬現實等應用中自然交流的虛擬角色至關重要。 然而,現有的動作生成模型通常僅限於特定的輸入模態(語音、文本或動作數據),無法充分利用可用數據的多樣性。

該模型利用語言模型統一口頭和非口頭語言,主要有三個原因:

語言模型自然地連接不同的模態。

語音具有高度語義性,而建模諸如對笑話的反應等任務需要強大的語義推理能力。

語言模型通過廣泛的預訓練獲得了強大的語義理解能力。

爲了實現這一目標,研究團隊首先將身體劃分爲不同的部分(面部、手部、上半身、下半身),並單獨對每個部分進行動作標記。 結合文本和語音的標記器,任何模態的輸入都可以表示爲一系列的標記,供語言模型使用。 該模型採用了兩階段訓練流程:首先進行預訓練,以實現各種模態與組合身體動作的對齊,以及音頻和文本的對齊。 之後,將下游任務轉化爲指令,並在這些指令上訓練模型,使其能夠遵循各種任務指令。

image.png

該模型在 BEATv2協同語音手勢生成基準測試中表現出色,遠超現有模型。 預訓練策略的效果也得到了驗證,尤其是在數據稀缺的情況下,表現出強大的泛化能力。 通過在語音-動作和文本-動作任務上進行後訓練,模型不僅可以遵循音頻和文本提示,還可以實現從動作數據中預測情緒等新功能。

在技術細節上,該模型採用模態特定的標記器處理各種輸入模態。 具體來說,該模型訓練了一個組合身體運動 VQ-VAE,將面部、手部、上半身和下半身的動作轉化爲離散的標記。 這些模態特定的詞彙(音頻和文本)被合併到一個統一的多模態詞彙表中。 在訓練過程中,不同模態的混合標記被用作輸入,並通過編碼器-解碼器語言模型生成輸出。

該模型還利用多模態詞彙表,將不同的模態數據轉換爲統一的格式進行處理。 在預訓練階段,模型通過執行模態間的轉換任務,來學習不同模態之間的對應關係。 例如,模型可以學習將上身動作轉換爲下身動作,或者將音頻轉換爲文本。 此外,模型還會通過隨機屏蔽某些動作幀來學習動作的時間演變。

在後訓練階段,模型使用配對數據進行微調,以執行協同語音手勢生成或文本到動作生成等下游任務。 爲了使模型能夠遵循自然的人類指令,研究人員構建了一個多任務指令遵循模板,將音頻到動作、文本到動作和情緒到動作等任務轉化爲指令。 該模型還具備編輯手勢的能力,可以根據文本和音頻提示生成協同的全身體動作。

最後,該模型還解鎖了從動作預測情緒的新能力。 這對於心理健康或精神病學等領域具有重要意義。 與其他模型相比,該模型能夠更準確地預測動作中表達的情緒,顯示出強大的身體語言理解能力。

該研究表明,統一人類動作的口頭和非口頭語言對於實際應用至關重要,而語言模型爲此提供了一個強大的框架。

論文地址:https://arxiv.org/pdf/2412.10523v1