微軟發佈 VibeVoice 0.5B：僅0.5B參數卻實現300毫秒實時開口

微軟今日發佈全新的實時文本轉語音模型 VibeVoice-Realtime-0.5B。儘管模型規模僅爲0.5B，但卻具備接近實時的語音生成能力，最快可在約300毫秒內開始發聲，實現“話未說完音已先到”的流暢體驗。該模型支持中英文實時轉錄與語音生成，其中中文表現略遜於英文，但整體依然保持高流暢度與高還原度。

VibeVoice-Realtime-0.5B 的自然音質表現備受關注。官方示例顯示，其生成的語音連貫、自然，可持續朗讀長文本內容，最長可穩定輸出90分鐘語音而不出現明顯斷續或風格漂移。與此同時，模型支持多角色語音場景，可在單次會話中呈現最多4位角色的自然對話，並在長時間交流中保持各自獨特的語氣、節奏和音色特徵，適用於播客、訪談或虛擬主持類場景。

在情感表達方面，模型可自動識別文本語義並生成相匹配的情緒語調，包括憤怒、歉意、激動等細微變化，讓語音更貼近真人表達。同時，VibeVoice-Realtime-0.5B 擁有穩定的上下文記憶能力，可在長段發言中保持語調、邏輯與速度一致，使整體呈現更真實、更具可聽性。

相比傳統大型語音模型，VibeVoice-Realtime-0.5B 的小體積和低延遲優勢尤爲突出。其輕量化設計適合直接嵌入應用設備，可爲智能助手、對話系統、智能硬件帶來更接近真人的即時語音交互體驗。微軟表示，隨着 VibeVoice 的開放，未來將有更多應用場景具備“開口即說”的 AI 語音能力。

地址：https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

微軟開始在Excel、Outlook等核心Office產品中，用自研MAI系列模型替代OpenAI和Anthropic模型，每週處理數萬條AI提示。此舉旨在打造更具成本競爭力的自主模型，削減高昂外部費用。微軟AI主管蘇萊曼表示，將“減少並最終消除”對外依賴，每年可省下天價賬單。

微軟發佈 VibeVoice 0.5B：僅0.5B參數卻實現300毫秒實時開口

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

微軟正逐步在Excel和Outlook中引入自研的MAI人工智能模型

寒風凜冽： 2026 年全球科技巨頭掀起“AI裁員潮”

微軟大動作：8月將整合Copilot全端產品，精簡功能對標ChatGPT

微軟發佈 VibeVoice 0.5B：僅0.5B參數卻實現300毫秒實時開口

相關推薦

微軟全面引入AI挖掘Windows漏洞，後續安全補丁修復數量將大幅增加

​微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

微軟正逐步在Excel和Outlook中引入自研的MAI人工智能模型

寒風凜冽： 2026 年全球科技巨頭掀起“AI裁員潮”

微軟大動作：8月將整合Copilot全端產品，精簡功能對標ChatGPT

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook