能說會唱還會耍寶！小米發佈 MiMo-V2-TTS 大模型：方言、情感信手拈來

語音合成技術正從“機械復讀”向“情感共鳴”完成質的跨越。3月19日，小米正式發佈自研語音合成大模型 Xiaomi MiMo-V2-TTS。這不僅是一個能讓機器“開口說話”的工具，更是一個集演、說、唱於一體的“全能聲優”。

MiMo-V2-TTS 基於小米自研的 Audio Tokenizer（音頻分詞器）與多碼本語音-文本聯合建模架構。在經過上億小時語音數據的大規模預訓練後，它展現出了驚人的多粒度語音風格控制力:

值得一提的是，MiMo-V2-TTS 極大地簡化了交互成本。它能智能識別文本中的標點符號、語氣詞及強調標記，並自動將其轉化爲恰當的語音表達，全程無需用戶進行額外的標註或手動干預。

對於小米而言，這款大模型的發佈是其語音技術路線圖上的關鍵里程碑。在未來的規劃中，小米計劃覆蓋中英文之外的更多語種，並將其與 MiMo-V2-Omni 的多模態理解能力深度融合。

當 AI Agent 不僅能看懂世界，更能以富有感染力的人類聲音講述世界，人機交互的未來形態已躍然紙上。隨着 MiMo-V2-TTS 的落地，小米生態內的智能設備將不再是冰冷的終端，而是更具“人味兒”的數字夥伴。

聯想 ThinkPad P1 AI 2026 正式發佈：重塑超便攜高性能移動工作站標杆