小米發佈自研MiMo-V2-TTS語音合成大模型，實現多方言與情感深度控制

小米正式發佈自研語音合成大模型Xiaomi MiMo-V2-TTS，標誌着其在高度可控、高表現力語音生成領域取得重要進展。該模型基於自研Audio Tokenizer及多碼本語音-文本聯合建模架構，

通過上億小時語音數據的大規模預訓練，實現了從宏觀風格定調到局部微觀情緒的精準調節。不同於傳統TTS，MiMo-V2-TTS具備在單句內完成語氣轉折與情感遞變的能力，能高度還原人類說話的自然韻律，並支持具備音高與節奏準確度的歌聲合成。技術層面，小米引入了多維度強化學習以兼顧生成的穩定性與表現力。模型可智能識別標點、語氣詞及強調標記等文本信號，無需人工額外標註即可轉化爲恰當的語音表達。此外，該模型展現了極強的跨地域適應性，支持包括東北話、四川話、河南話、粵語及臺灣腔在內的多種方言，並能進行角色化演繹。

作爲小米語音技術路線圖的關鍵里程碑，MiMo-V2-TTS未來將進一步拓展多語種覆蓋，並深度融合MiMo-V2-Omni的多模態理解能力。這種從單一語音合成向多模態感知與表達協同的演進，預示着AI智能體（Agent）正從單純的語義交互向更具人格化、具備情感共鳴的人機交互階段轉型，將顯著提升智能座艙及智能家居等場景的用戶體驗。

ChatGPT 5.5 Pro：一小時破解博士級數學難題，AI 數學能力再創高峯

劍橋大學數學教授、菲爾茲獎得主 Timothy Gowers 分享使用未公開的 ChatGPT 5.5 Pro 進行數學研究的經歷。該AI模型在一小時內解決了一個組合數學開放性問題，引發學術界對AI數學能力的關注。Gowers指出，大語言模型在數學領域的應用已從早期只能尋找已知信息，發展到能解決開放性問題。

MiniMax 大模型“叫錯人名” 稀宇科技：特定詞元后訓練不足導致

稀宇科技技術報告揭示，M2系列模型無法準確輸出“馬嘉祺”等特定人名，根源在於分詞器導致的“詞元偏移”問題。模型將名字切分爲“馬”和“嘉祺”，使得向量空間被擠壓，造成識別偏差。這暴露了當前大模型訓練中一個普遍但隱蔽的缺陷，影響了特定人名的精確生成。

小米發佈自研MiMo-V2-TTS語音合成大模型，實現多方言與情感深度控制

相關推薦

馬斯克訴OpenAI案庭審現場，一份 2017 年的總裁日記揭開了哪些祕密？

調查顯示玩家對 AI 干預遊戲畫面反感，保留原始風格成主流選擇

ChatGPT 5.5 Pro：一小時破解博士級數學難題，AI 數學能力再創高峯

MiniMax 大模型“叫錯人名” 稀宇科技：特定詞元后訓練不足導致

OpenAI 推出 Codex Chrome 擴展程序，提升瀏覽器操作效率

小米發佈自研MiMo-V2-TTS語音合成大模型，實現多方言與情感深度控制

相關推薦

馬斯克訴OpenAI案庭審現場，一份 2017 年的總裁日記揭開了哪些祕密？

​調查顯示玩家對 AI 干預遊戲畫面反感，保留原始風格成主流選擇

ChatGPT 5.5 Pro：一小時破解博士級數學難題，AI 數學能力再創高峯

MiniMax 大模型“叫錯人名” 稀宇科技：特定詞元后訓練不足導致

OpenAI 推出 Codex Chrome 擴展程序，提升瀏覽器操作效率

調查顯示玩家對 AI 干預遊戲畫面反感，保留原始風格成主流選擇