阿里通義千問發佈新一代語音合成大模型Qwen3-TTS,即日起通過Qwen API向全球開發者免費開放。模型提供49種多角色音色,支持10種主流語言及10種中國方言,官方稱其在MiniMax TTS multilingual test set上的平均詞錯誤率(WER)優於MiniMax與ElevenLabs,擬人化程度逼近真人。

49種音色即選即用
- 角色庫:涵蓋性別、年齡、地域及角色設定——「撒嬌搞怪茉兔」「嚴厲老師墨講師」「智慧老者滄明子」等一鍵切換
- 場景適配:播客、有聲書、遊戲NPC、智能客服均可秒級換聲,無需額外訓練
10語10方言,跨語種WER領先
- 主流語言:中、英、德、意、法等10種語言全覆蓋
- 方言列表:普通話、粵語、四川話等10種方言,保留地道口音與語調
- 客觀指標:MiniMax TTS multilingual test set 平均WER低於ElevenLabs,合成準確率提升約12%

韻律與語速:文本驅動,真人級自然度
- 自適應語速:根據文本情緒自動調節快慢與停頓
- 韻律模型:音節級重音與語調預測,MOS評分達4.6,逼近真人4.8
- 實時流式:首包延遲<300ms,適合直播配音與對話場景
免費接入 & 商用友好
- API定價:目前免費開放,無調用次數限制
- 授權條款:默認支持商業用途,無需額外授權費
- 集成示例:一句HTTPS請求即可接入,10行代碼完成語音播報
下一步:方言克隆 + 邊緣部署
阿里透露,2025年Q1將推出「方言語音克隆」功能,5秒音頻即可復刻地方口音;Q2發佈邊緣盒子版本,支持離線局域網部署,目標覆蓋智慧景區、車載語音等場景。
編輯結語
當語音合成捲到「音色即角色」階段,Qwen3-TTS用49種人設+10方言+免費API打出差異化:無需訓練即可秒換聲,WER指標直接對標國際付費引擎。對於播客、遊戲、客服等「重語音、重風格」應用,這相當於把「配音演員+後期製作」成本打到接近零。
