阿里發佈超強語音合成模型 Qwen3-TTS，49 種音色滿足你的聲音需求！

阿里通義千問發佈新一代語音合成大模型Qwen3-TTS，即日起通過Qwen API向全球開發者免費開放。模型提供49種多角色音色，支持10種主流語言及10種中國方言，官方稱其在MiniMax TTS multilingual test set上的平均詞錯誤率（WER）優於MiniMax與ElevenLabs，擬人化程度逼近真人。

49種音色即選即用

- 角色庫:涵蓋性別、年齡、地域及角色設定——「撒嬌搞怪茉兔」「嚴厲老師墨講師」「智慧老者滄明子」等一鍵切換

- 場景適配:播客、有聲書、遊戲NPC、智能客服均可秒級換聲，無需額外訓練

10語10方言，跨語種WER領先

- 主流語言:中、英、德、意、法等10種語言全覆蓋

- 方言列表:普通話、粵語、四川話等10種方言，保留地道口音與語調

- 客觀指標:MiniMax TTS multilingual test set 平均WER低於ElevenLabs，合成準確率提升約12%

韻律與語速:文本驅動，真人級自然度

- 自適應語速:根據文本情緒自動調節快慢與停頓

- 韻律模型:音節級重音與語調預測，MOS評分達4.6，逼近真人4.8

- 實時流式:首包延遲<300ms，適合直播配音與對話場景

免費接入 & 商用友好

- API定價:目前免費開放，無調用次數限制

- 授權條款:默認支持商業用途，無需額外授權費

- 集成示例:一句HTTPS請求即可接入，10行代碼完成語音播報

下一步:方言克隆 + 邊緣部署

阿里透露，2025年Q1將推出「方言語音克隆」功能，5秒音頻即可復刻地方口音;Q2發佈邊緣盒子版本，支持離線局域網部署，目標覆蓋智慧景區、車載語音等場景。

編輯結語

當語音合成捲到「音色即角色」階段，Qwen3-TTS用49種人設+10方言+免費API打出差異化:無需訓練即可秒換聲，WER指標直接對標國際付費引擎。對於播客、遊戲、客服等「重語音、重風格」應用，這相當於把「配音演員+後期製作」成本打到接近零。

小米發佈自研MiMo-V2-TTS語音合成大模型，實現多方言與情感深度控制

小米發佈自研語音合成大模型Xiaomi MiMo-V2-TTS，在可控、高表現力語音生成方面取得突破。該模型基於自研Audio Tokenizer及多碼本架構，通過大規模預訓練，實現從宏觀風格到微觀情緒的精準調節。它能在單句內完成語氣轉折與情感遞變，高度還原人類自然韻律，支持多種語音風格。

阿里發佈超強語音合成模型 Qwen3-TTS，49 種音色滿足你的聲音需求！

相關推薦

等不及正式版？Qwen3.7 預覽模型已可體驗！數學/編程/多模態全面進階，思考模式先睹爲快

小米發佈自研MiMo-V2-TTS語音合成大模型，實現多方言與情感深度控制

肯德基聯手阿里千問大模型上線AI點餐助手“小K”，支持全流程語音閉環

微信封殺元寶？騰訊元寶紅包鏈接在微信內被攔截

破解高退貨率難題：微盟推出“AI試衣”助力零售電商智能化升級