人工智能語音領域迎來強力競爭者,初創公司 Resemble AI 正式發佈了名爲“Chatterbox Turbo”的開源文本轉語音模型,其矛頭直指 ElevenLabs 和 Cartesia 等行業巨頭。

這款模型在性能上實現了顯著突破,僅需五秒鐘的參考音頻即可精準克隆目標語音,並在短短150毫秒內輸出首個音頻片段。這種極致的低延遲表現,使其成爲構建實時 AI 代理、自動化客戶支持、動態遊戲角色、虛擬形象以及社交平臺交互的理想選擇。Resemble AI 聲稱,該模型在語音質量上已超越現有閉源競品,能爲開發者提供更自然的合成體驗。

在安全合規方面,Chatterbox Turbo 針對受監管行業內置了名爲“PerTh”的神經水印功能,可用於驗證語音的 AI 生成身份,有效應對深度僞造風險。更具顛覆性的是,Resemble AI 選擇了以 MIT 許可證發佈該模型,意味着全球開發者不僅可以在 Hugging Face、RunPod、Modal、Replicate 和 Fal 等平臺免費試用,還能在 GitHub 獲取完整代碼進行商業化修改與分發。

目前,Resemble AI 已同步提供託管服務,並計劃在近期推出進一步優化延遲的版本,旨在通過開源生態重塑語音合成市場的競爭格局。