Fish Audio 正式发布新一代文本转语音(TTS)模型 S2,标志着开源TTS技术在表现力和可控性上迎来重大突破。

这款名为 Fish Audio S2的模型主打超强情感可控性,用户可通过自然语言指令实现精细化的韵律与情绪调节,例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心)等标签,甚至支持自由描述如 [professional broadcast tone](专业播音腔)或 [pitch up](升高音调),在词级或短语级实现精准控制,生成极富表现力、自然生动的语音。

核心亮点包括:

  • 完全开源:模型权重、微调代码及基于SGLang的流式推理引擎全部公开(GitHub 与 Hugging Face 可获取),S2-Pro 为旗舰版本(约44亿参数)。
  • 超低延迟:推理延迟低于 150毫秒,适合实时应用场景如对话机器人、虚拟主播等。
  • 原生多说话人支持:单次推理即可处理多个说话人,支持对话轮转、打断、自然情感传递与音色一致性,无需额外处理。

Fish Audio 表示,S2基于约1000万小时、覆盖近50种语言的音频数据训练,结合强化学习对齐与双自回归架构,在多项基准测试中展现出领先的自然度与表现力,被誉为当前开源与闭源TTS中最具情感智能的系统之一。“真正的语言自由,从现在开始。” Fish Audio 以这句话宣告:从机械朗读走向真正富有情感与个性的AI语音时代已来。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/