近日,KittenML 團隊在 Hugging Face 平臺上發佈了其新款開源文本轉語音模型 ——Kitten TTS。這一模型的設計目標是實現高質量的語音合成,同時保持輕量級和高效能,適合在各種設備上進行部署。Kitten TTS 的參數量僅爲1500萬,相比於其他同類模型,其體積小於25MB,特別適合資源有限的環境。

image.png

Kitten TTS 支持無 GPU 運行,這意味着用戶可以在普通的 CPU 設備上進行語音合成,極大地降低了使用門檻。該模型還提供了多種高質量的語音選項,確保生成的語音更加自然流暢,適合用於各類應用場景。此外,Kitten TTS 的推理速度也得到了優化,可以實現實時語音合成,滿足用戶對速度的需求。

爲了讓用戶快速上手,KittenML 還提供了簡單的安裝和使用指南。用戶只需通過 pip 命令安裝相應的庫,並通過簡單的代碼調用模型,即可生成高質量的語音。例如,用戶只需輸入文本 “這個高質量的 TTS 模型無需 GPU 即可運行”,模型便會輸出相應的音頻文件,方便用戶保存和使用。

Kitten TTS 目前處於開發者預覽階段,未來還將發佈全面訓練的模型權重,移動 SDK 以及網頁版,進一步拓展應用範圍。KittenML 希望通過這一模型,推動文本轉語音技術的普及,幫助更多開發者和企業在其項目中輕鬆實現語音合成功能。

Kitten TTS 的發佈標誌着 AI 語音合成技術向更廣泛應用的又一步,期待這一模型在未來能夠爲更多用戶帶來便利和創新的體驗。

項目:https://huggingface.co/KittenML/kitten-tts-nano-0.1

劃重點:  

🐱 Kitten TTS 是一款開源的輕量級文本轉語音模型,體積小於25MB,適合各種設備。  

⚡ 模型支持無 GPU 運行,確保用戶在普通 CPU 上也能進行高質量語音合成。  

🚀 Kitten TTS 已提供簡單的安裝和使用指南,用戶可快速上手並生成音頻。