7月3日,法國AI研究機構Kyutai Labs宣佈開源其最新文本轉語音(TTS)技術——Kyutai TTS,爲開發者與AI愛好者帶來高效、實時的語音生成解決方案。Kyutai TTS以低延遲與高保真聲音爲亮點,支持文本流式傳輸,無需完整文本即可開始生成音頻,特別適合實時交互場景。

Kyutai TTS在性能上表現卓越。使用單塊NVIDIA L40S GPU,該模型可同時處理32個請求,延遲僅爲350毫秒。此外,系統不僅生成高質量音頻,還能輸出單詞的精確時間戳,方便實時字幕生成或交互式應用,如Unmute平臺的中斷處理功能。

在語言支持與質量評估方面,Kyutai TTS目前支持英語和法語,單詞錯誤率(WER)分別爲2.82和3.29,展現出高準確度。說話者相似度達到77.1%(英語)和78.7%(法語),確保語音自然且接近原始樣本。模型還能處理長篇文章,突破傳統TTS的30秒限制,適合新聞、書籍等長篇內容生成。

Kyutai TTS採用延遲流建模(DSM)架構,結合Rust服務器實現高效批處理,已在GitHub和Hugging Face開放源碼與模型權重,助力全球開發者推動語音技術創新。

開源地址:https://kyutai.org/next/tts