最近 AI 圈可是熱鬧非凡,今天咱們就來聊聊其中的 “狠角色”——LLaMA-Omni2。這是一系列超厲害的語音語言模型(SpeechLMs),參數規模從0.5B 到14B 不等,專門爲實現高質量實時語音交互而生,在 Hugging Face 上一經發布,就引起了廣泛關注。

image.png

語音交互發展歷程回顧:從 “卡頓” 到 “絲滑”

語音交互在人機交互領域的地位愈發重要,它就像是爲我們打開了一扇便捷的大門,極大地提升了交互效率和用戶體驗。大家想想,以前操作設備只能靠手動輸入,現在只需動動嘴就能搞定,多方便!隨着像 ChatGPT 這樣強大的大語言模型(LLMs)崛起,語音與 LLMs 的交互更是成爲了熱門話題。就拿 GPT-4o 來說,它實現了用戶與 LLMs 之間實時、智能且自然的語音交互,引領了新一代人機交互的潮流。

但早期的語音交互技術並不成熟。傳統構建語音聊天機器人的方式,是將自動語音識別(ASR)模型、LLM 和文本轉語音(TTS)模型串聯起來使用。這種方法雖然容易實現,卻存在不少問題。首先,錯誤會在各個階段不斷累積,就好比接力比賽中,每一棒都可能出現失誤,最後導致整個比賽成績不佳。其次,由於多個模型是按順序依次處理信息,整體響應延遲較高,你說句話,得等好一會兒才能得到迴應,體驗感很差。再者,系統很難捕捉到輸入語音中的一些隱含信息,比如說話者的情緒、語氣變化等。

爲了解決這些問題,端到端的語音語言模型(SpeechLMs)應運而生。它主要分爲原生和模塊化兩種類型。原生 SpeechLMs 會把語音離散成一個個小單元(token),採用類似 GPT 的解碼器架構,在統一的語言模型中處理語音和文本。這種架構的優勢在於可以利用大量無監督語音數據進行預訓練,有利於模型在參數規模和數據量上的擴展,甚至可能讓模型產生一些像人類一樣的語音表達能力。不過,它的缺點也很明顯,需要大規模的語音數據集(比如數百萬小時的數據)來進行預訓練,這在數據收集和訓練成本上都是巨大的挑戰,而且還可能導致模型對文本能力的遺忘。

相比之下,模塊化 SpeechLMs 則是在 LLM 的基礎上,增加了語音編碼器和解碼器,以此來處理語音的理解和生成。這種方式的好處是能夠充分發揮每個模塊的固有能力,只需要少量的數據進行微調(比如幾百或幾千小時的語音數據),就能讓模型獲得語音交互能力,同時還能保留 LLM 原有的大部分能力。而且,模塊化 SpeechLMs 生成的語音通常由文本輸出引導,保證了生成語音的智能性。

image.png

LLaMA-Omni2登場:多項技術融合的 “智慧結晶”

LLaMA-Omni2就是模塊化 SpeechLMs 中的佼佼者。它以 Qwen2.5系列模型爲基礎,這個系列在各種基準測試中都表現出色,爲 LLaMA-Omni2奠定了堅實的基礎。同時,它採用了 Whisper 的編碼器,這個編碼器就像是一個精準的 “翻譯官”,能夠將輸入的語音準確地轉換爲一系列特徵表示。

在語音解碼器方面,LLaMA-Omni2借鑑了先進的 CosyVoice2模型。它首先使用一個由 Qwen2.5-0.5B 初始化的自迴歸文本轉語音語言模型,將 LLM 的輸出轉換爲語音 token,並通過交替讀寫操作實現流式生成。接着,語音 token 會經過一個塊感知因果流匹配模型,以流式的方式生成梅爾頻譜圖,最後再通過 HiFi-GAN 聲碼器生成最終的語音波形。

爲了訓練這個模型,研究團隊合成了200K 多輪語音到語音的對話樣本。這些樣本的輸入語音具有多樣性,而輸出語音則保持統一風格,模擬了真實場景下的對話情況。訓練過程分爲兩個階段:在第一階段,分別訓練語音到文本和文本到語音的組件;第二階段,則專注於訓練模型的語音到語音生成能力。通過這種分階段的訓練方式,LLaMA-Omni2能夠更好地學習和優化各個模塊的性能。

數據構建:精心打造的 “學習素材”

數據對於模型的訓練至關重要。LLaMA-Omni2的數據是在 InstructS2S-200K 數據集的基礎上進行擴展的。原始數據集包含200K 單輪指令跟隨樣本,這些樣本是從 Alpaca 和 UltraChat 數據集通過 LLMs 改寫而來的。研究人員通過泊松分佈採樣確定對話輪數,並將其限制在1到5輪之間,然後使用 Llama-3.3-70B-Instruct 模型迭代生成多輪文本對話樣本。

在將文本對話轉換爲語音時,爲了模擬真實應用場景,研究人員爲指令設置了多樣化的聲音,而回復則使用統一的聲音。具體實現方法是,先用 fishspeech-1.5模型合成一個隨機語音提示,再用這個提示引導 CosyVoice20.5B 模型將指令合成爲語音,並克隆語音風格。對於所有回覆,則使用統一的語音提示,通過 CosyVoice2-0.5B 模型合成語音。這樣的數據構建方式,使得訓練數據更加真實、豐富,有助於模型學習到更準確的語音交互模式。

實驗評測:實力強勁,超越 “前輩”

爲了全面評估 LLaMA-Omni2的性能,研究人員進行了一系列實驗。在模型配置上,採用 Whisper-large-v3的編碼器、進行5× 下采樣和具有2048中間維度 FFN 的語音適配器,以及不同參數規模的 Qwen2.5系列 LLM,並對文本轉語音語言模型進行特定的初始化和設置讀寫策略。

訓練過程中,使用合成的200K 多輪語音對話數據,分階段進行訓練,每個階段設置不同的批大小、訓練輪數和學習率,並採用熱身策略和餘弦退火學習率調度器。在評估環節,主要進行了口語問答和語音指令跟隨兩個任務,並對模型的語音到文本和語音到語音能力進行評估。評估指標包括準確率、ChatGPT 評分(使用 GPT-4o 進行評分)、ASR-WER(評估文本和語音響應的一致性)、UTMOS(評估生成語音的自然度)以及延遲(測量從接收語音指令到生成第一個語音塊的時間)。

研究人員還選擇了 LLaMA-Omni 和 GLM-4-Voice 等作爲基線系統進行對比。實驗結果顯示,LLaMA-Omni2在口語問答和語音指令跟隨任務中表現出色。在口語問答任務中,相同參數規模下,LLaMA-Omni2-7B 在語音到文本和語音到語音設置下均優於 GLM-4-Voice 和 LLaMA-Omni,並且顯著縮小了兩種設置下的性能差距;不同參數規模下,隨着 LLM 大小的增加,模型準確率提高,較小的模型如 LLaMA-Omni2-1.5B/3B 在語音到語音設置下超過了 GLM-4-Voice 和 LLaMA-Omni,適合用於邊緣設備,而較大的模型如 LLaMA-Omni2-14B 則展現出更大的潛力。在語音指令跟隨任務中,LLaMA-Omni2-3B/7B/14B 在語音到文本和語音到語音設置下均優於基線系統,模型的 ASR-WER 較低,UTMOS 評分較高,延遲也滿足實時交互的要求。

此外,研究人員還對 LLaMA-Omni2-7B 模型進行了一系列消融研究,分析了門融合模塊、TTS 預訓練策略、讀寫策略以及訓練數據大小等因素對模型性能的影響。結果表明,這些因素都對模型的整體性能有着重要作用,比如門融合模塊能夠有效提升模型性能,合適的 TTS 預訓練策略和讀寫策略能夠優化語音質量和響應延遲,多輪對話數據比單輪對話數據更有利於模型訓練,並且200K 的訓練數據量能夠在保證訓練效率的同時使模型性能達到較好的水平。

未來展望:持續進化,潛力無限

LLaMA-Omni2雖然已經取得了顯著的成果,但也存在一些侷限性。目前,它還無法根據輸入語音的內容或潛在的副語言信息生成不同風格(如情感、語速)的語音,不過研究團隊認爲通過數據驅動的方法,在進一步訓練後模型有望獲得這一能力。同時,由於它基於 LLMs 構建,可能會存在與 LLMs 類似的風險,如輸出內容可能出現事實錯誤或幻覺等問題,因此在實際使用中需要對輸出進行檢查。

總體而言,LLaMA-Omni2在語音交互領域邁出了重要的一步,爲未來的研究和應用提供了新的思路和方向。相信在未來,隨着技術的不斷髮展和改進,LLaMA-Omni2以及類似的模型將會在更多領域得到應用,爲人們的生活和工作帶來更多便利和創新。讓我們一起拭目以待!

論文地址:https://arxiv.org/pdf/2505.02625

模型地址:https://huggingface.co/collections/ICTNLP/llama-omni-67fdfb852c60470175e36e9c