微軟最近發佈了 VibeVoice-Realtime-0.5B,這是一款針對實時文本轉語音(TTS)的輕量級模型。該模型支持流式文本輸入和長篇語音輸出,特別適合用於代理式應用和實時數據講述。VibeVoice-Realtime 可以在約300毫秒內開始輸出可聽語音,這在語言模型還在生成回答時尤爲重要。

智能語音,AI

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

VibeVoice 框架致力於通過連續語音標記實現下一個標記的擴散,涵蓋了多種變體以適應長篇多語者音頻的需求,如播客。研究團隊表示,主版本的 VibeVoice 模型能夠合成長達90分鐘的語音,支持多達4名說話者在64k 的上下文窗口中生成聲音。

VibeVoice-Realtime 使用一種交錯窗口設計,輸入的文本被拆分成小塊。模型在編碼新文本塊的同時,還能繼續從先前的上下文中生成聲學特徵。這樣,文本編碼與聲學解碼之間的重疊使得該系統能在合適的硬件上達到約300毫秒的首音延遲。

與長篇 VibeVoice 變體不同,實時模型只使用聲學標記器,且以7.5赫茲的速度運行。聲學標記器基於 LatentLM 的 σ VAE 變體,採用對稱的編碼器 - 解碼器架構,能夠對24kHz 音頻進行3200倍的下采樣。

該模型的訓練分爲兩個階段,首先對聲學標記器進行預訓練,隨後凍結標記器並訓練大語言模型(LLM)及擴散頭。VibeVoice-Realtime 在 LibriSpeech 測試集上取得了零樣本性能,字錯誤率(WER)爲2.00%,說話者相似度爲0.695,表現與其他近期的 TTS 系統相當。

推薦的集成模式是將 VibeVoice-Realtime-0.5B 與對話 LLM 一起運行,LLM 在生成過程中流式傳輸標記。該 TTS 過程具有固定的8k 上下文和約10分鐘的音頻預算,適合於典型的代理對話、支持呼叫和監控儀表板。

huggingface:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

劃重點:

🌟 VibeVoice-Realtime-0.5B 支持流式文本輸入,可在300毫秒內開始輸出語音,適合實時交互應用。  

🛠️ 該模型使用低延遲的聲學標記器,以7.5赫茲的速度生成聲學特徵,優化長篇語音合成。  

📈 在 LibriSpeech 測試中,VibeVoice-Realtime 的字錯誤率爲2.00%,表現優越,適合多種應用場景。