微軟近日開源了名爲VibeVoice的前沿語音 AI 模型家族,涵蓋自動語音識別(ASR)和文本轉語音(TTS)等多項能力。該項目以其強大的長音頻處理、多說話人自然對話生成以及實時低延遲特性,迅速在開發者社區引發關注,目前已在 GitHub 收穫約27K Star。
作爲開源研究框架,VibeVoice 採用 MIT 許可協議,支持本地部署,無需雲端訂閱費用,旨在推動語音合成領域的協作與創新。模型家族主要包括三個核心成員,各有側重,共同解決了傳統語音 AI 在長序列處理、說話人一致性和自然流暢性上的痛點。

VibeVoice-ASR-7B:長達60分鐘的結構化語音轉文本利器
VibeVoice-ASR-7B 是一個統一的語音轉文本模型,能夠一次性處理長達60分鐘的音頻文件,直接輸出結構化轉錄結果。輸出不僅包含“誰在說話”(說話人識別)、“何時說話”(精確時間戳),還包括“說了什麼”(詳細內容),並支持自定義熱詞功能,可有效提升專有名詞或技術術語的識別準確率。該模型支持超過50種語言,適用於長篇會議記錄、播客轉錄等複雜場景。
社區開發者已基於該模型開發出實用工具,例如一款名爲Vibing的語音輸入法,支持 macOS 和 Windows 平臺。用戶反饋顯示,其識別速度和準確率表現不錯,可顯著提升日常語音輸入效率。
VibeVoice-TTS-1.5B:90分鐘多說話人富有表現力的語音生成
VibeVoice-TTS-1.5B 是專注於文本轉語音的核心模型,能在單次生成中產出長達90分鐘的連續音頻,支持最多4個不同說話人進行自然對話模擬。模型生成的語音富有表現力,聽起來自然流暢,能模擬真實的停頓、強調和情感轉折,非常適合製作播客、長音頻敘事、有聲書或多角色對話內容。
相比許多傳統 TTS 模型僅支持1-2個說話人,VibeVoice-TTS 在長形式、多說話人一致性上實現了顯著突破。其底層採用連續語音分詞器(聲學與語義分詞器)結合低幀率設計(7.5Hz),大幅提升了長序列處理的計算效率。
VibeVoice-Realtime-0.5B:約300毫秒延遲的實時 TTS
VibeVoice-Realtime-0.5B 專注於實時場景,支持流式文本輸入,首音頻輸出延遲約300毫秒,同時還能生成約10分鐘的長篇語音。該模型特別適合需要即時迴應的交互應用,如實時語音助手或直播配音場景。
此外,項目還引入了實驗性說話人支持,包括多語言語音和多種英語風格變體,爲開發者提供更多定製空間。
AIbase 點評:微軟 VibeVoice 的開源不僅降低了高性能語音 AI 的使用門檻,還爲本地部署提供了完整解決方案。項目曾因潛在誤用風險短暫下架,後通過嵌入音頻水印、可聽免責聲明等安全機制重新上線,體現了負責任 AI 開發的原則。目前,開發者可在 GitHub 倉庫和 Hugging Face 獲取模型權重,並通過 Colab 等平臺快速試用。
隨着開源社區的持續貢獻(如針對 Apple Silicon 的優化 fork),VibeVoice 有望在內容創作、無障礙工具、語音交互等領域加速落地。感興趣的開發者可訪問微軟官方項目頁進一步探索
項目地址:https://github.com/microsoft/VibeVoice
