近日,微軟推出了一款備受矚目的開源文本轉語音(TTS)模型——VibeVoice,引發了AI語音技術領域的高度關注。這款模型以其強大的功能和卓越的性能,爲長篇語音生成、多人對話以及中文語音合成樹立了新的標杆。以下,AIbase將爲您詳細解析VibeVoice的亮點與潛力。
支持90分鐘超長語音生成,突破時長限制
VibeVoice模型在語音生成時長上實現了重大突破,可一次性生成長達90分鐘的連續語音。這一特性尤其適合需要長時間音頻輸出的場景,如播客、有聲書和教育內容製作。相比傳統TTS模型的時長限制,VibeVoice的超長生成能力爲內容創作者提供了更大的靈活性和創作空間。

多人對話新高度,最多支持4人語音
與以往TTS模型僅支持單人或雙人對話的侷限不同,VibeVoice能夠流暢生成最多4人的對談語音。這一功能在模擬多人播客、會議錄音或虛擬角色互動等場景中表現出色。得益於其在語音一致性和自然輪轉上的優化,VibeVoice生成的多人對話語音自然流暢,幾乎可媲美真人錄音效果。
中文語音效果優異,助力本土化應用
對於中文市場,VibeVoice展現了令人印象深刻的表現。其支持中文語音合成,且在語調、發音準確性和自然度上均達到了高水平。這使得VibeVoice在中文播客、教育培訓、智能客服等領域具有廣泛的應用潛力,爲開發者提供了高質量的本土化語音解決方案。
支持背景音樂,打造沉浸式播客體驗
VibeVoice的另一大亮點是支持生成帶背景音樂的播客音頻。這一功能讓內容創作者能夠輕鬆爲語音添加背景音效,打造更具沉浸感和專業性的音頻內容。無論是輕鬆的背景旋律還是緊張的氛圍音效,VibeVoice都能無縫融合,爲聽衆帶來更豐富的聽覺體驗。
開源賦能開發者,未來應用前景廣闊
作爲一款開源模型,VibeVoice已於2025年8月26日在GitHub正式發佈,開發者可自由獲取並進行二次開發。微軟此次開源的舉措,不僅降低了高質量TTS技術的使用門檻,也爲全球AI開發者社區注入了新的活力。無論是個人創作者還是企業用戶,都可以通過VibeVoice快速構建創新的語音應用。
地址:https://huggingface.co/microsoft/VibeVoice-1.5B
