Fish Speech是一款由fishaudio開發的全新文本轉語音工具,它不僅完美支持中文、英語和日語,而且在語音處理上的能力接近人類水平,可以說是你私人語音助手的不二之選。
要點:
😊 完美支持中英日三種語言,語音處理接近人類水平
😊 支持語音克隆,只需提供一段參考語音,即可迅速完成克隆
😊 對顯存要求極低,僅需4GB,支持多種不同的語音生成模型
Fish Speech模型的厲害之處在於,它使用了大約十五萬小時的三語數據進行訓練,特別是在中文方面的表現,簡直是無可挑剔。作爲一個億級參數的模型,它設計得既高效又輕量,這意味着你可以在自己的個人設備上輕鬆運行和微調,隨時隨地享受語音轉換的便捷。
支持中文
目前,庫裏的可供選擇的聲音多數是動漫人物的聲音,AIbase輸入一段文字測試,發現有的動漫人物語速偏慢,如果要用到視頻裏,還需要刪除中間停頓太長的地方。真人的聲音有丁真,特朗普和孫笑川等,不過以防萬一還是不要用其他真人的聲音比較好。想用真人聲音的,可以考慮創建自己的聲音。
以下是AIbase的測試效果:
更讓人興奮的是,Fish Speech採用了Flash-Attn算法,這一算法專爲處理大規模數據而設計,以其高效性、準確性和穩定性著稱。這不僅顯著提升了TTS技術的性能,也讓你在使用過程中享受到了前所未有的流暢體驗。
支持英文
而且,Fish Speech的語音克隆能力也是一大亮點。你只需提供一段參考語音,它就能迅速進行語音克隆,無需經過繁瑣的訓練過程。此外,它對顯存的需求極低,僅需4GB,推理速度快,這些都極大地優化了用戶體驗。
支持日文
當然,Fish Speech的強大遠不止於此。Fish Speech支持多種不同的語音生成模型,包括但不限於:
VITS2:基於變分推理的文本到語音模型。
Bert-VITS2:結合BERT模型的變分推理文本到語音模型。
GPT VITS:結合GPT模型的文本到語音模型。
MQTTS:基於量化技術的文本到語音模型。
GPT Fast:快速生成語音的GPT模型。
GPT-SoVITS:結合GPT和SoVITS技術的文本到語音模型。
每一種模型都有其獨特的優勢,滿足不同用戶的需求。
總的來說,Fish Speech是一款創新、高效、輕量的文本轉語音工具。它不僅能夠成爲你的私人語音助手,還能爲你的創意項目提供強大的語音支持。如果你對語音技術感興趣,或者正在尋找一個無需繁瑣訓練、快速克隆的TTS解決方案,那麼Fish Speech絕對值得一試。
官網地址:https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin
項目地址:https://github.com/fishaudio/fish-speech