相关推荐
小米发布全链路语音大模型 MiMo-V2.5,TTS 可“一句话生成新音色”,ASR 开源支持方言与多语混说
小米发布MiMo-V2.5全链路语音模型系列,包括三款TTS模型和一款开源ASR模型,覆盖语音输入与输出。TTS模型能精准调度情绪、语气和角色身份,让声音可编程、可创作、可复刻,提升人机交互自然度,开启语音智能新纪元。
2026年4月24号 8:57
295.1k
英伟达收购 SchedMD 加强开源 AI 生态系统布局
英伟达收购AI软件公司SchedMD,强化开源技术布局,提升AI生态竞争力。公司以高速芯片闻名,同时积极提供多种开源AI模型,覆盖物理模拟、自动驾驶等领域,推动技术普及与创新。
2025年12月16号 8:54
164.9k
智谱多模态开源周圆满落幕:四项视频生成核心技术全面开放
智谱团队开源四项视频生成核心技术,包括GLM-4.6V视觉理解、AutoGLM设备控制、GLM-ASR语音识别和GLM-TTS语音合成模型,展示其在多模态领域的最新进展,为视频生成技术发展奠定基础。
2025年12月12号 10:44
206.1k
Qwen3-TTS 升级:多样化声音让语音合成更自然
Qwen3-TTS语音合成模型全面升级,支持多音色、多语种和多方言,显著提升语音自然度和稳定性。通过Qwen API可便捷访问,现提供超过49种高品质音色,覆盖不同性别、年龄和地域特征,满足多样化场景需求。
2025年12月11号 9:17
209.8k
“开口即角色”!阿里 Qwen3-TTS 登场:49 种音色 + 10 语言 9 方言,WER 碾压主流商用模型
阿里巴巴发布Qwen3-TTS语音合成模型,具备零样本、多角色、跨语言能力,在词错误率上优于主流商用引擎。提供49种音色,覆盖多种场景,支持10种语言及9种中国方言。开发者可在阿里云免费调用100万字符额度。
2025年12月8号 13:57
353.1k
