当 AI 语音不再只是“能听会说”,而是能像导演一样精准调度情绪、语气甚至角色身份,人机交互的自然度正迈入新纪元。小米今日正式推出MiMo-V2.5全链路语音模型系列,包含三款 TTS(语音合成)模型与一款开源 ASR(语音识别)模型,全面覆盖 Agent 时代的语音输入与输出需求,让声音真正成为可编程、可创作、可复刻的智能媒介。

image.png

🎙️ TTS 三大模型:声音从此“听你指挥”

小米此次发布的MiMo-V2.5-TTS 系列首次实现“语言即控制”的语音生成范式:

  • MiMo-V2.5-TTS:内置多款高保真精品音色,支持通过自然语言指令精细调控语速、情绪、语气等维度。用户无需填写参数,只需像对演员说戏般描述:“用温柔但坚定的语气,语速稍慢,带点疲惫感”,模型即可精准演绎。

  • MiMo-V2.5-TTS-VoiceDesign:一句话生成全新音色——输入“一个30岁知性女声,带轻微南方口音,适合播讲财经新闻”,系统即刻创建专属声音,大幅降低音色创作门槛。

  • MiMo-V2.5-TTS-VoiceClone:仅需少量样本(如30秒语音),即可高保真复刻目标人声,同时保留对风格指令与音频标签的响应能力,适用于虚拟主播、个性化助手等场景。

更突破性的是其分层导演剧本机制:在有声剧或游戏 NPC 等高一致性要求场景中,开发者可分别定义“角色身份”“场景氛围”“单句表演指导”,各层独立更新却协同输出,确保角色声音贯穿始终,每句台词又富有变化。

此外,模型支持行内音频标签(如[emotion: excited]),可在文本任意位置插入多标签组合,实现复杂情感编排;即便输入纯文本无任何提示,模型也能自动解析标点、句式与隐含情感,输出“有血有肉”的语音。

🎧 ASR 开源:嘈杂真实场景下的“全能耳朵”

同步开源的MiMo-V2.5-ASR则聚焦“听得清、听得准”:

  • 支持吴语、粤语、闽南语、四川话等主流中文方言;
  • 中英混说(Code-Switch) 场景下无需预设语种,转录流畅;
  • 强噪音、远场拾音、多人交叉对话(如会议)等复杂环境保持高鲁棒性;
  • 精准识别古诗词、专业术语、歌曲歌词(含伴奏干扰);
  • 原生输出标点,转写结果可直接用于下游任务,无需后处理。

在多项权威评测中,该模型在中英文通用、方言、混说及歌词识别等维度均达业界领先水平。

🚀 免费开放 + 开源,加速 Agent 生态落地

目前,三款 TTS 模型已在小米 MiMo 开放平台限时免费,开发者可通过 API 调用或 MiMo Studio 快速体验;而 MiMo-V2.5-ASR模型权重与代码已完全开源,支持社区二次开发。

这一全栈语音能力的释放,标志着小米正从终端厂商向 AI 基础设施提供者延伸。当每个开发者都能低成本构建具备“导演级语音表现力”的智能体,下一代人机交互的想象空间,才真正被打开——未来,你的 AI 助手不仅能理解你的话,更能用你想要的声音,说出打动人心的回答。