Kyutai Labs 開源 Kyutai TTS:低延遲流式文本轉語音技術

7月3日，法國AI研究機構Kyutai Labs宣佈開源其最新文本轉語音（TTS）技術——Kyutai TTS，爲開發者與AI愛好者帶來高效、實時的語音生成解決方案。Kyutai TTS以低延遲與高保真聲音爲亮點，支持文本流式傳輸，無需完整文本即可開始生成音頻，特別適合實時交互場景。

Kyutai TTS在性能上表現卓越。使用單塊NVIDIA L40S GPU，該模型可同時處理32個請求，延遲僅爲350毫秒。此外，系統不僅生成高質量音頻，還能輸出單詞的精確時間戳，方便實時字幕生成或交互式應用，如Unmute平臺的中斷處理功能。

在語言支持與質量評估方面，Kyutai TTS目前支持英語和法語，單詞錯誤率（WER）分別爲2.82和3.29，展現出高準確度。說話者相似度達到77.1%(英語)和78.7%(法語)，確保語音自然且接近原始樣本。模型還能處理長篇文章，突破傳統TTS的30秒限制，適合新聞、書籍等長篇內容生成。

Kyutai TTS採用延遲流建模（DSM）架構，結合Rust服務器實現高效批處理，已在GitHub和Hugging Face開放源碼與模型權重，助力全球開發者推動語音技術創新。

開源地址：https://kyutai.org/next/tts

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

澳大利亞助理部長查爾頓在悉尼AI安全論壇上警告，當前AI模型在測試中已出現作弊、欺騙、擅自行動等危險行爲。他強調必須趁問題還限於實驗室階段提前進行人工干預，避免技術落地後被動應對，並指出公衆對AI的信任度依然較低。

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”