微軟今日發佈全新的實時文本轉語音模型 VibeVoice-Realtime-0.5B。儘管模型規模僅爲0.5B,但卻具備接近實時的語音生成能力,最快可在約300毫秒內開始發聲,實現“話未說完音已先到”的流暢體驗。該模型支持中英文實時轉錄與語音生成,其中中文表現略遜於英文,但整體依然保持高流暢度與高還原度。
VibeVoice-Realtime-0.5B 的自然音質表現備受關注。官方示例顯示,其生成的語音連貫、自然,可持續朗讀長文本內容,最長可穩定輸出90分鐘語音而不出現明顯斷續或風格漂移。與此同時,模型支持多角色語音場景,可在單次會話中呈現最多4位角色的自然對話,並在長時間交流中保持各自獨特的語氣、節奏和音色特徵,適用於播客、訪談或虛擬主持類場景。
在情感表達方面,模型可自動識別文本語義並生成相匹配的情緒語調,包括憤怒、歉意、激動等細微變化,讓語音更貼近真人表達。同時,VibeVoice-Realtime-0.5B 擁有穩定的上下文記憶能力,可在長段發言中保持語調、邏輯與速度一致,使整體呈現更真實、更具可聽性。
相比傳統大型語音模型,VibeVoice-Realtime-0.5B 的小體積和低延遲優勢尤爲突出。其輕量化設計適合直接嵌入應用設備,可爲智能助手、對話系統、智能硬件帶來更接近真人的即時語音交互體驗。微軟表示,隨着 VibeVoice 的開放,未來將有更多應用場景具備“開口即說”的 AI 語音能力。
地址:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
