Meta AI近日重磅開源了名爲SPIRIT LM的基礎多模態語言模型,該模型能夠自由混合文本和語音,爲音頻和文本的多模態任務打開了新的可能性。

SPIRIT LM基於一個70億參數的預訓練文本語言模型,通過在文本和語音單元上進行持續訓練,擴展到語音模態。它可以像文本大模型一樣理解和生成文本,同時還能理解和生成語音,甚至可以把文本和語音混合在一起,創造出各種神奇的效果! 比如,你可以用它來做語音識別,把語音轉換成文字;也可以用它來做語音合成,把文字轉換成語音;還可以用它來做語音分類,判斷一段語音表達的是什麼情緒。

image.png

更厲害的是,SPIRIT LM 還特別擅長“情感表達”! 它可以識別和生成各種不同的語音語調和風格,讓 AI 的聲音聽起來更自然、更有感情。 你可以想象一下,用 SPIRIT LM 生成的語音,不再是那種冷冰冰的機器音,而是像真人說話一樣,充滿了喜怒哀樂!

爲了讓 AI 更好地“聲情並茂”,Meta 的研究人員還專門開發了兩個版本的 SPIRIT LM:

“基礎版” (BASE):這個版本主要關注語音的音素信息,也就是語音的“基本構成”。

“表達版” (EXPRESSIVE):這個版本除了音素信息,還加入了音調和風格信息,可以讓 AI 的聲音更生動、更有表現力。

image.png

那麼,SPIRIT LM 又是如何做到這一切的呢?

簡單來說,SPIRIT LM 是基於 Meta 之前發佈的超強文本大模型——LLAMA2訓練出來的。 研究人員把大量的文本和語音數據“喂”給 LLAMA2,並採用了一種特殊的“交錯訓練”方法,讓 LLAMA2能夠同時學習文本和語音的規律。

爲了測試 SPIRIT LM 的“情感表達”能力,Meta 的研究人員還專門設計了一個新的測試基準——“語音-文本情感保留基準” (STSP)。 這個測試基準包含了各種表達不同情感的語音和文本提示,用來測試 AI 模型是否能夠準確地識別和生成相應情感的語音和文本。 結果表明,SPIRIT LM 的“表達版”在情感保留方面表現出色,是目前第一個能夠跨模態保留情感信息的 AI 模型!

當然,Meta 的研究人員也坦言,SPIRIT LM 還有很多需要改進的地方。 比如,SPIRIT LM 目前只支持英文,未來還需要擴展到其他語言;SPIRIT LM 的模型規模還不夠大,未來還需要繼續擴大模型規模,提升模型性能。

SPIRIT LM 是 Meta 在 AI 領域的一項重大突破,它爲我們打開了通往“聲情並茂”的 AI 世界的大門。 相信在不久的將來,我們會看到更多基於 SPIRIT LM 開發的有趣應用,讓 AI 不止能說會道,還能像真人一樣表達情感,與我們進行更自然、更親切的交流!

項目地址:https://speechbot.github.io/spiritlm/

論文地址:https://arxiv.org/pdf/2402.05755