小米正式發佈自研語音合成大模型Xiaomi MiMo-V2-TTS,標誌着其在高度可控、高表現力語音生成領域取得重要進展。該模型基於自研Audio Tokenizer及多碼本語音-文本聯合建模架構,

通過上億小時語音數據的大規模預訓練,實現了從宏觀風格定調到局部微觀情緒的精準調節。不同於傳統TTS,MiMo-V2-TTS具備在單句內完成語氣轉折與情感遞變的能力,能高度還原人類說話的自然韻律,並支持具備音高與節奏準確度的歌聲合成。技術層面,小米引入了多維度強化學習以兼顧生成的穩定性與表現力。模型可智能識別標點、語氣詞及強調標記等文本信號,無需人工額外標註即可轉化爲恰當的語音表達。此外,該模型展現了極強的跨地域適應性,支持包括東北話、四川話、河南話、粵語及臺灣腔在內的多種方言,並能進行角色化演繹。

作爲小米語音技術路線圖的關鍵里程碑,MiMo-V2-TTS未來將進一步拓展多語種覆蓋,並深度融合MiMo-V2-Omni的多模態理解能力。這種從單一語音合成向多模態感知與表達協同的演進,預示着AI智能體(Agent)正從單純的語義交互向更具人格化、具備情感共鳴的人機交互階段轉型,將顯著提升智能座艙及智能家居等場景的用戶體驗。

00750fiJly1ibbls9aowuj320ncn2qvi.jpg