Meta最新音頻大模型SPIRIT LM，讓AI不止能說會道，還能“聲情並茂”！

Meta AI近日重磅開源了名爲SPIRIT LM的基礎多模態語言模型，該模型能夠自由混合文本和語音，爲音頻和文本的多模態任務打開了新的可能性。

SPIRIT LM基於一個70億參數的預訓練文本語言模型，通過在文本和語音單元上進行持續訓練，擴展到語音模態。它可以像文本大模型一樣理解和生成文本，同時還能理解和生成語音，甚至可以把文本和語音混合在一起，創造出各種神奇的效果! 比如，你可以用它來做語音識別，把語音轉換成文字;也可以用它來做語音合成，把文字轉換成語音;還可以用它來做語音分類，判斷一段語音表達的是什麼情緒。

更厲害的是，SPIRIT LM 還特別擅長“情感表達”! 它可以識別和生成各種不同的語音語調和風格，讓 AI 的聲音聽起來更自然、更有感情。你可以想象一下，用 SPIRIT LM 生成的語音，不再是那種冷冰冰的機器音，而是像真人說話一樣，充滿了喜怒哀樂!

爲了讓 AI 更好地“聲情並茂”，Meta 的研究人員還專門開發了兩個版本的 SPIRIT LM:

“基礎版” （BASE）:這個版本主要關注語音的音素信息，也就是語音的“基本構成”。

“表達版” （EXPRESSIVE）:這個版本除了音素信息，還加入了音調和風格信息，可以讓 AI 的聲音更生動、更有表現力。

那麼，SPIRIT LM 又是如何做到這一切的呢?

簡單來說，SPIRIT LM 是基於 Meta 之前發佈的超強文本大模型——LLAMA2訓練出來的。研究人員把大量的文本和語音數據“喂”給 LLAMA2，並採用了一種特殊的“交錯訓練”方法，讓 LLAMA2能夠同時學習文本和語音的規律。

爲了測試 SPIRIT LM 的“情感表達”能力，Meta 的研究人員還專門設計了一個新的測試基準——“語音-文本情感保留基準” （STSP）。這個測試基準包含了各種表達不同情感的語音和文本提示，用來測試 AI 模型是否能夠準確地識別和生成相應情感的語音和文本。結果表明，SPIRIT LM 的“表達版”在情感保留方面表現出色，是目前第一個能夠跨模態保留情感信息的 AI 模型!

當然，Meta 的研究人員也坦言，SPIRIT LM 還有很多需要改進的地方。比如，SPIRIT LM 目前只支持英文，未來還需要擴展到其他語言;SPIRIT LM 的模型規模還不夠大，未來還需要繼續擴大模型規模，提升模型性能。

SPIRIT LM 是 Meta 在 AI 領域的一項重大突破，它爲我們打開了通往“聲情並茂”的 AI 世界的大門。相信在不久的將來，我們會看到更多基於 SPIRIT LM 開發的有趣應用，讓 AI 不止能說會道，還能像真人一樣表達情感，與我們進行更自然、更親切的交流!

項目地址：https://speechbot.github.io/spiritlm/

論文地址：https://arxiv.org/pdf/2402.05755

Meta最新音頻大模型SPIRIT LM，讓AI不止能說會道，還能“聲情並茂”！

相關推薦

WhatsApp封殺第三方AI聊天機器人遭歐盟反壟斷調查，Meta或面臨164億美元罰款

Meta AI 推出 Matrix 框架，革新多智能體合成數據生成

Meta 甩出“白盒手術刀”：CoT-Verifier 把 AI 推理失誤釘在歸因圖上

Meta 發佈 CoT 驗證模型：基於 Llama 3.1 的白盒推理糾錯工具

Meta開源SAM 3D：單圖秒生可交互3D模型，空間理解刷新SOTA