Fish Audio最近丟出了一枚重磅炸彈——Fish Speech1.5,這款全新的語音合成模型簡直是“聲”臨其境,不僅在準確性、穩定性和跨語言能力上狂甩前輩幾條街,還一口氣新增了五種語言支持!此外,Fish Speech1.5還即將推出實時無縫對話功能,讓用戶可以隨時隨地選擇語音庫進行交互式聊天。

image.png

Fish Speech1.5的“學識”可是相當淵博,它可是“啃”了超過100萬小時的多語言訓練數據才練就一身絕技,目前已經精通包括英語、中文和日語在內的13種語言。這可不是吹牛,人家可是在匿名TTS-Arena排名中獲得了第二名的好成績!

Fish Speech1.5的語音克隆功能也堪稱“閃電俠”,延遲時間竟然不到150毫秒,簡直是實時生成!更重要的是,Fish Speech1.5還大方地開源了預訓練模型,無論你是想自己在家“調教”還是選擇雲端服務,都能輕鬆搞定!

主要特點:

  • 零樣本和少樣本語音合成:只需要給它聽10到30秒的聲音樣本,它就能模仿得惟妙惟肖,生成高質量的語音合成輸出。這就像是一個超級模仿秀,只要你敢“秀”,它就敢“學”!

  • 多語言和跨語言支持:還在爲語言不通而煩惱嗎?Fish Speech1.5已經幫你掃清障礙了!只要把你想說的話複製粘貼到輸入框,它就能輕鬆搞定,目前支持英語、日語、韓語、中文、法語、德語、阿拉伯語和西班牙語。這下,你終於可以和世界各地的朋友暢聊無阻啦!

  • 無音素依賴:傳統的語音合成模型往往依賴於音素,而Fish Speech1.5卻另闢蹊徑,它擁有超強的泛化能力,可以處理任何語言腳本的文本,這簡直是語音合成界的一場革命!

  • 高度準確:對於一篇5分鐘的英文文章,Fish Speech1.5的錯誤率竟然低至2%,這可是一個相當驚人的數字!

  • 快速:Fish Speech1.5的速度也是槓槓的,在Nvidia RTX4060筆記本電腦上,它的實時係數約爲1:5,而在Nvidia RTX4090上,實時係數更是高達1:15!這簡直就是“飛一般的感覺”!

Fish Speech1.5還支持本地部署:

WebUI:它提供了一個簡單易用的Web UI,兼容Chrome、Firefox、Edge等主流瀏覽器,讓你隨時隨地都能體驗語音合成的樂趣。

GUI:它還提供了一個可與API服務器無縫協作的PyQt6圖形界面,支持Linux、Windows和macOS系統,簡直是“三劍客”的福音!

部署友好:你還可以輕鬆地將Fish Speech1.5部署到Linux、Windows和MacOS系統上,最大限度地減少速度損失。

官網地址:https://fish.audio/zh-CN/

項目地址:https://github.com/fishaudio/fish-speech