微軟開源VibeVoice TTS模型：90分鐘超長語音，可4人對話，中文效果驚豔！

近日，微軟推出了一款備受矚目的開源文本轉語音（TTS）模型——VibeVoice，引發了AI語音技術領域的高度關注。這款模型以其強大的功能和卓越的性能，爲長篇語音生成、多人對話以及中文語音合成樹立了新的標杆。以下，AIbase將爲您詳細解析VibeVoice的亮點與潛力。

支持90分鐘超長語音生成，突破時長限制

VibeVoice模型在語音生成時長上實現了重大突破，可一次性生成長達90分鐘的連續語音。這一特性尤其適合需要長時間音頻輸出的場景，如播客、有聲書和教育內容製作。相比傳統TTS模型的時長限制，VibeVoice的超長生成能力爲內容創作者提供了更大的靈活性和創作空間。

多人對話新高度，最多支持4人語音

與以往TTS模型僅支持單人或雙人對話的侷限不同，VibeVoice能夠流暢生成最多4人的對談語音。這一功能在模擬多人播客、會議錄音或虛擬角色互動等場景中表現出色。得益於其在語音一致性和自然輪轉上的優化，VibeVoice生成的多人對話語音自然流暢，幾乎可媲美真人錄音效果。

中文語音效果優異，助力本土化應用

對於中文市場，VibeVoice展現了令人印象深刻的表現。其支持中文語音合成，且在語調、發音準確性和自然度上均達到了高水平。這使得VibeVoice在中文播客、教育培訓、智能客服等領域具有廣泛的應用潛力，爲開發者提供了高質量的本土化語音解決方案。

支持背景音樂，打造沉浸式播客體驗

VibeVoice的另一大亮點是支持生成帶背景音樂的播客音頻。這一功能讓內容創作者能夠輕鬆爲語音添加背景音效，打造更具沉浸感和專業性的音頻內容。無論是輕鬆的背景旋律還是緊張的氛圍音效，VibeVoice都能無縫融合，爲聽衆帶來更豐富的聽覺體驗。

開源賦能開發者，未來應用前景廣闊

作爲一款開源模型，VibeVoice已於2025年8月26日在GitHub正式發佈，開發者可自由獲取並進行二次開發。微軟此次開源的舉措，不僅降低了高質量TTS技術的使用門檻，也爲全球AI開發者社區注入了新的活力。無論是個人創作者還是企業用戶，都可以通過VibeVoice快速構建創新的語音應用。

地址：https://huggingface.co/microsoft/VibeVoice-1.5B

Kimi K3 攻防考卷翻車：漏洞利用只到美國前沿模型四成，蒸餾疑雲被安全機構擺上臺