微軟開源前沿語音 AI 家族 VibeVoice：單次處理 90 分鐘多說話人對話，GitHub 迅速獲 27K Star

微軟近日開源了名爲VibeVoice的前沿語音 AI 模型家族，涵蓋自動語音識別（ASR）和文本轉語音(TTS)等多項能力。該項目以其強大的長音頻處理、多說話人自然對話生成以及實時低延遲特性，迅速在開發者社區引發關注，目前已在 GitHub 收穫約27K Star。

作爲開源研究框架，VibeVoice 採用 MIT 許可協議，支持本地部署，無需雲端訂閱費用，旨在推動語音合成領域的協作與創新。模型家族主要包括三個核心成員，各有側重，共同解決了傳統語音 AI 在長序列處理、說話人一致性和自然流暢性上的痛點。

VibeVoice-ASR-7B:長達60分鐘的結構化語音轉文本利器

VibeVoice-ASR-7B 是一個統一的語音轉文本模型，能夠一次性處理長達60分鐘的音頻文件，直接輸出結構化轉錄結果。輸出不僅包含“誰在說話”（說話人識別）、“何時說話”(精確時間戳)，還包括“說了什麼”(詳細內容)，並支持自定義熱詞功能，可有效提升專有名詞或技術術語的識別準確率。該模型支持超過50種語言，適用於長篇會議記錄、播客轉錄等複雜場景。

社區開發者已基於該模型開發出實用工具，例如一款名爲Vibing的語音輸入法，支持 macOS 和 Windows 平臺。用戶反饋顯示，其識別速度和準確率表現不錯，可顯著提升日常語音輸入效率。

VibeVoice-TTS-1.5B:90分鐘多說話人富有表現力的語音生成

VibeVoice-TTS-1.5B 是專注於文本轉語音的核心模型，能在單次生成中產出長達90分鐘的連續音頻，支持最多4個不同說話人進行自然對話模擬。模型生成的語音富有表現力，聽起來自然流暢，能模擬真實的停頓、強調和情感轉折，非常適合製作播客、長音頻敘事、有聲書或多角色對話內容。

相比許多傳統 TTS 模型僅支持1-2個說話人，VibeVoice-TTS 在長形式、多說話人一致性上實現了顯著突破。其底層採用連續語音分詞器（聲學與語義分詞器）結合低幀率設計(7.5Hz)，大幅提升了長序列處理的計算效率。

VibeVoice-Realtime-0.5B:約300毫秒延遲的實時 TTS

VibeVoice-Realtime-0.5B 專注於實時場景，支持流式文本輸入，首音頻輸出延遲約300毫秒，同時還能生成約10分鐘的長篇語音。該模型特別適合需要即時迴應的交互應用，如實時語音助手或直播配音場景。

此外，項目還引入了實驗性說話人支持，包括多語言語音和多種英語風格變體，爲開發者提供更多定製空間。

AIbase 點評:微軟 VibeVoice 的開源不僅降低了高性能語音 AI 的使用門檻，還爲本地部署提供了完整解決方案。項目曾因潛在誤用風險短暫下架，後通過嵌入音頻水印、可聽免責聲明等安全機制重新上線，體現了負責任 AI 開發的原則。目前，開發者可在 GitHub 倉庫和 Hugging Face 獲取模型權重，並通過 Colab 等平臺快速試用。

隨着開源社區的持續貢獻（如針對 Apple Silicon 的優化 fork），VibeVoice 有望在內容創作、無障礙工具、語音交互等領域加速落地。感興趣的開發者可訪問微軟官方項目頁進一步探索

項目地址：https://github.com/microsoft/VibeVoice

微軟開源前沿語音 AI 家族 VibeVoice：單次處理 90 分鐘多說話人對話，GitHub 迅速獲 27K Star

VibeVoice-ASR-7B:長達60分鐘的結構化語音轉文本利器

VibeVoice-TTS-1.5B:90分鐘多說話人富有表現力的語音生成

VibeVoice-Realtime-0.5B:約300毫秒延遲的實時 TTS

相關推薦

國家標準委發佈《AI倫理安全指引1.0》，爲大模型落地裝上“安全閘”

價格狂降75%!DeepSeek V4宣告永久保留折扣，登頂全球AI性價比榜首

谷歌 CEO 皮查伊：坦誠承認編程領域落後，AI 搜索轉型將採取“穩健策略”

xAI 祭出“殺手鐗”：1.5 萬億參數 Grok V9-Medium 訓練完成，直指編程 AI 賽道

強強聯合！得州擬建2. 5 吉瓦核電燃氣混合電站以應對AI用電激增