Meta AI 最新推出的 SPIRIT-LM 是一款具有革命性意義的多模態基礎語言模型,它能夠自由混合文本和語音,並能像人類一樣理解和表達情感。

SPIRIT-LM 基於預訓練的文本語言模型構建,通過在文本和語音單元上進行持續訓練,擴展到語音模態。該模型將語音和文本序列連接成一個單一的標記集,並使用一個小型自動管理的語音-文本平行語料庫,採用詞級交織方法進行訓練。

QQ20241021-092227.png

SPIRIT-LM 有兩個版本:

基礎版 (SPIRIT-LM-BASE) 使用語音語義單元。

情感版 (SPIRIT-LM-EXPRESSIVE) 使用音調和風格單元來模擬情感表達,除此之外還包括語義單元。

兩個版本都使用子詞 BPE 標記對文本進行編碼。

SPIRIT-LM 結合了文本模型的語義能力和語音模型的表達能力,因此它能夠完成跨模態的任務,如語音識別、文本轉語音和語音分類,並且只需少量樣本即可學習新任務。

爲了評估生成模型的表達能力,研究人員引入了語音-文本情感保存基準 (STSP),該基準衡量生成模型在模態內部和跨模態情況下,對口頭和書面表達的情感保存程度。

情感版 SPIRIT-LM 是第一個能夠在模態內部和跨模態情況下保存文本和語音提示情感的語言模型。它利用音調和風格標記來捕捉語音的情感和風格,並通過專門設計的語音-文本情感保存基準進行評估。

QQ20241021-092239.png

研究結果表明:

SPIRIT-LM 在語音模態的詞彙、語法和語義理解方面與現有模型不相上下,同時保持了良好的文本生成能力。

交織訓練是 SPIRIT-LM 成功的關鍵,它使模型能夠學習語音和文本標記之間的對應關係,從而實現更好的文本到語音的轉換。

預訓練知識對於 SPIRIT-LM 的少樣本學習能力至關重要。

SPIRIT-LM-EXPRESSIVE 能夠捕捉和生成更具表現力的語音,在情感表達方面優於基礎版。

SPIRIT-LM 是 AI 語言模型發展史上的一個重要里程碑,它開創了多模態語言理解和生成的全新可能性,爲未來更智能、更人性化的 AI 應用奠定了基礎。

論文地址:https://arxiv.org/pdf/2402.05755

項目地址:https://github.com/facebookresearch/spiritlm