語音合成技術正從“機械復讀”向“情感共鳴”完成質的跨越。3月19日,小米 正式發佈自研語音合成大模型 Xiaomi MiMo-V2-TTS。這不僅是一個能讓機器“開口說話”的工具,更是一個集演、說、唱於一體的“全能聲優”。

MiMo-V2-TTS 基於小米自研的 Audio Tokenizer(音頻分詞器)與多碼本語音-文本聯合建模架構。在經過上億小時語音數據的大規模預訓練後,它展現出了驚人的多粒度語音風格控制力:
情感大師: 模型支持從整體定調到局部情緒的精準調節。它能在同一句話內實現語氣的自然轉折和情感的細膩遞變,完美還原人類說話時的自然韻律。
跨界歌者: 除了說話,它還具備高質量的歌聲合成能力,能夠準確表達音高與節奏,唱腔自然且富有表現力。
方言達人: 爲了貼近不同地域用戶的使用習慣,模型支持東北話、四川話、河南話、粵語、臺灣腔等多種方言,並能進行角色化、風格化的演繹。
值得一提的是,MiMo-V2-TTS 極大地簡化了交互成本。它能智能識別文本中的標點符號、語氣詞及強調標記,並自動將其轉化爲恰當的語音表達,全程無需用戶進行額外的標註或手動干預。
對於 小米 而言,這款大模型的發佈是其語音技術路線圖上的關鍵里程碑。在未來的規劃中,小米計劃覆蓋中英文之外的更多語種,並將其與 MiMo-V2-Omni 的多模態理解能力深度融合。
當 AI Agent 不僅能看懂世界,更能以富有感染力的人類聲音講述世界,人機交互的未來形態已躍然紙上。隨着 MiMo-V2-TTS 的落地,小米生態內的智能設備將不再是冰冷的終端,而是更具“人味兒”的數字夥伴。