真正的情感自由！Fish Audio发布S2：多说话人、词级情绪控制、完全开源

Fish Audio 正式发布新一代文本转语音（TTS）模型 S2，标志着开源TTS技术在表现力和可控性上迎来重大突破。

这款名为 Fish Audio S2的模型主打超强情感可控性，用户可通过自然语言指令实现精细化的韵律与情绪调节，例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心)等标签，甚至支持自由描述如 [professional broadcast tone](专业播音腔)或 [pitch up](升高音调)，在词级或短语级实现精准控制，生成极富表现力、自然生动的语音。

核心亮点包括:

完全开源:模型权重、微调代码及基于SGLang的流式推理引擎全部公开（GitHub 与 Hugging Face 可获取），S2-Pro 为旗舰版本(约44亿参数)。
超低延迟:推理延迟低于 150毫秒，适合实时应用场景如对话机器人、虚拟主播等。
原生多说话人支持:单次推理即可处理多个说话人，支持对话轮转、打断、自然情感传递与音色一致性，无需额外处理。

Fish Audio 表示，S2基于约1000万小时、覆盖近50种语言的音频数据训练，结合强化学习对齐与双自回归架构，在多项基准测试中展现出领先的自然度与表现力，被誉为当前开源与闭源TTS中最具情感智能的系统之一。“真正的语言自由，从现在开始。” Fish Audio 以这句话宣告:从机械朗读走向真正富有情感与个性的AI语音时代已来。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/

真正的情感自由！Fish Audio发布S2：多说话人、词级情绪控制、完全开源

相关推荐

谷歌发布最强TTS模型，支持近 70 种语言

马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

Grok 也能“开口说话”了！马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

Hume AI开源TADA：5倍速零幻觉TTS，能在手机上跑700秒长音频

苹果发布PCG语音生成技术：告别刻板校验，AI配音提速40%

真正的情感自由！Fish Audio发布S2：多说话人、词级情绪控制、完全开源

相关推荐

谷歌发布最强TTS模型，支持近 70 种语言

马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

Grok 也能“开口说话”了！马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

Hume AI开源TADA：5倍速零幻觉TTS，能在手机上跑700秒长音频

​苹果发布PCG语音生成技术：告别刻板校验，AI配音提速40%

苹果发布PCG语音生成技术：告别刻板校验，AI配音提速40%