小米发布全链路语音大模型 MiMo-V2.5，TTS 可“一句话生成新音色”，ASR 开源支持方言与多语混说

当 AI 语音不再只是“能听会说”，而是能像导演一样精准调度情绪、语气甚至角色身份，人机交互的自然度正迈入新纪元。小米今日正式推出MiMo-V2.5全链路语音模型系列，包含三款 TTS（语音合成）模型与一款开源 ASR(语音识别)模型，全面覆盖 Agent 时代的语音输入与输出需求，让声音真正成为可编程、可创作、可复刻的智能媒介。

🎙️ TTS 三大模型:声音从此“听你指挥”

小米此次发布的MiMo-V2.5-TTS 系列首次实现“语言即控制”的语音生成范式:

MiMo-V2.5-TTS:内置多款高保真精品音色，支持通过自然语言指令精细调控语速、情绪、语气等维度。用户无需填写参数，只需像对演员说戏般描述:“用温柔但坚定的语气，语速稍慢，带点疲惫感”，模型即可精准演绎。
MiMo-V2.5-TTS-VoiceDesign:一句话生成全新音色——输入“一个30岁知性女声，带轻微南方口音，适合播讲财经新闻”，系统即刻创建专属声音，大幅降低音色创作门槛。
MiMo-V2.5-TTS-VoiceClone:仅需少量样本（如30秒语音），即可高保真复刻目标人声，同时保留对风格指令与音频标签的响应能力，适用于虚拟主播、个性化助手等场景。

更突破性的是其分层导演剧本机制:在有声剧或游戏 NPC 等高一致性要求场景中，开发者可分别定义“角色身份”“场景氛围”“单句表演指导”，各层独立更新却协同输出，确保角色声音贯穿始终，每句台词又富有变化。

此外，模型支持行内音频标签（如[emotion: excited]），可在文本任意位置插入多标签组合，实现复杂情感编排;即便输入纯文本无任何提示，模型也能自动解析标点、句式与隐含情感，输出“有血有肉”的语音。

🎧 ASR 开源:嘈杂真实场景下的“全能耳朵”

同步开源的MiMo-V2.5-ASR则聚焦“听得清、听得准”:

支持吴语、粤语、闽南语、四川话等主流中文方言;
在中英混说（Code-Switch） 场景下无需预设语种，转录流畅;
强噪音、远场拾音、多人交叉对话（如会议）等复杂环境保持高鲁棒性;
精准识别古诗词、专业术语、歌曲歌词（含伴奏干扰）;
原生输出标点，转写结果可直接用于下游任务，无需后处理。

在多项权威评测中，该模型在中英文通用、方言、混说及歌词识别等维度均达业界领先水平。

🚀 免费开放 + 开源，加速 Agent 生态落地

目前，三款 TTS 模型已在小米 MiMo 开放平台限时免费，开发者可通过 API 调用或 MiMo Studio 快速体验;而 MiMo-V2.5-ASR模型权重与代码已完全开源，支持社区二次开发。

这一全栈语音能力的释放，标志着小米正从终端厂商向 AI 基础设施提供者延伸。当每个开发者都能低成本构建具备“导演级语音表现力”的智能体，下一代人机交互的想象空间，才真正被打开——未来，你的 AI 助手不仅能理解你的话，更能用你想要的声音，说出打动人心的回答。

小米发布全链路语音大模型 MiMo-V2.5，TTS 可“一句话生成新音色”，ASR 开源支持方言与多语混说

🎙️ TTS 三大模型:声音从此“听你指挥”

🎧 ASR 开源:嘈杂真实场景下的“全能耳朵”

🚀 免费开放 + 开源，加速 Agent 生态落地

相关推荐

DeepSeek-V4 发布！性能直逼顶级闭源模型，百万上下文 1 元起

DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代

DeepSeek V4 正式发布，DeepSeek-V4-Flash与 DeepSeek-V4-Pro双版本定价揭晓

英伟达 CEO 黄仁勋推动全员使用 OpenAI Codex 编程工具

豆神教育与微软 Azure 携手打造 AI 短剧平台

小米发布全链路语音大模型 MiMo-V2.5，TTS 可“一句话生成新音色”，ASR 开源支持方言与多语混说

🎙️ TTS 三大模型:声音从此“听你指挥”

🎧 ASR 开源:嘈杂真实场景下的“全能耳朵”

🚀 免费开放 + 开源，加速 Agent 生态落地

相关推荐

DeepSeek-V4 发布！性能直逼顶级闭源模型，百万上下文 1 元起

DeepSeek-V4预览版正式发布:1M 超长上下文进入全员普惠时代

DeepSeek V4 正式发布，DeepSeek-V4-Flash与 DeepSeek-V4-Pro双版本定价揭晓

​英伟达 CEO 黄仁勋推动全员使用 OpenAI Codex 编程工具

​豆神教育与微软 Azure 携手打造 AI 短剧平台

英伟达 CEO 黄仁勋推动全员使用 OpenAI Codex 编程工具

豆神教育与微软 Azure 携手打造 AI 短剧平台