開源免費語音克隆模型ChatterBox AI，性能測試超ElevenLabs

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 19, 2025

人工智能語音技術領域迎來重大突破!加拿大初創公司Resemble AI近日發佈其首款開源文本轉語音（TTS）模型ChatterBox，採用MIT許可證。這一模型以其卓越的語音克隆能力、情緒控制功能和超低延遲特性，迅速成爲行業焦點，甚至在盲測中超越了知名閉源模型ElevenLabs。

ChatterBox的發佈背景

ChatterBox是Resemble AI在語音合成領域的最新成果，基於0.5億參數的Llama架構，訓練數據高達50萬小時的精選音頻。相較於傳統閉源TTS解決方案，ChatterBox以開源形式發佈，旨在爲開發者、創作者和企業提供高質量且自由度更高的語音生成工具。近期網絡信息顯示，ChatterBox自5月底發佈以來，已在GitHub上獲得數百個Star，顯示出社區對其的高度認可。

其獨特的功能，如零樣本語音克隆、情緒誇張控制和實時推理，使其在語音助手、遊戲、影視製作等領域展現出巨大潛力。ChatterBox的發佈不僅降低了語音克隆技術的使用門檻，還爲行業樹立了新的標杆。

核心特性:技術突破與應用場景

零樣本語音克隆

ChatterBox支持僅需數秒參考音頻即可實現精準的語音克隆，無需額外訓練。這種“零樣本”能力極大簡化了語音克隆流程，適用於個性化語音助手、虛擬角色配音等場景。開發者可通過簡單的音頻提示調整目標語音風格，確保輸出高度貼合需求。

情緒控制創新

ChatterBox是首款支持情緒誇張控制的開源TTS模型，用戶可通過單一參數調節語音的情感強度，從單調到戲劇化表達均可實現。這一功能使其在需要高度表現力的場景（如動畫、廣告和互動娛樂）中表現出色，顯著優於傳統模型的機械化輸出。

超低延遲與易用性

得益於基於對齊的生成技術，ChatterBox實現快於實時的語音合成，適合實時應用如語音助手和遊戲對話系統。配合專用的Python庫（chatterbox-tts），開發者可輕鬆在本地或雲端部署模型，並支持CUDA加速，進一步提升效率。

內置水印技術

爲應對語音克隆可能帶來的倫理問題，ChatterBox在生成音頻中嵌入Resemble AI的PerTh神經水印技術。這種水印難以察覺但可追蹤，確保生成內容的可追溯性，平衡了技術開放性與安全性。

行業影響:開源語音技術的里程碑

ChatterBox的開源發佈標誌着語音克隆技術從專有走向民主化。近期測試顯示，63.75%的聽衆在盲測中更偏好ChatterBox的音頻輸出，優於行業標杆ElevenLabs，凸顯其競爭力。與此同時，ChatterBox的MIT許可證爲開發者提供了無障礙的使用體驗，預計將加速其在教育、娛樂和商業領域的普及。

然而，語音克隆技術的開放也引發了倫理討論。網絡動態指出，AI語音克隆已被用於詐騙和非授權內容生成，凸顯了技術濫用的風險。 Resemble AI通過水印技術和社區規範呼籲，試圖在開放創新與責任使用間找到平衡。AIbase認爲，這一努力爲行業樹立了負責任開源的典範。

項目:https://github.com/resemble-ai/chatterbox

谷歌暫停推出 AI 驅動的 “Ask Photos” 功能，以解決性能問題

根據最新消息，谷歌已經暫停了其在 Google Photos 中推出的 AI 驅動 “Ask Photos” 功能。該功能自去年秋季以來逐步擴展，但目前並未達到預期的效果。谷歌 Photos 的產品經理 Jamie Aspinall 在社交平臺 X 上表示:“詢問照片功能還未達到我們希望的水平。” 他指出，當前的主要問題包括延遲、質量和用戶體驗等三個方面。“Ask Photos” 功能使用的是谷歌最新的 Gemini AI 模型，特別是爲該功能定製的版本。Aspinal 提到，由於這些問題的存在，谷歌決定在小範圍內暫停該功能的推廣，並計劃在兩週內推

Fish Audio發佈OpenAudio S1：媲美專業配音演員的AI語音新標杆

Fish Audio正式推出其最新一代語音生成模型——OpenAudio S1，以其高度自然的聲音、豐富的語氣控制和強大的指令跟隨能力，號稱達到專業配音演員的表現力和自然度。這一模型在TTS-Arena排行榜中榮登第一，成爲文本轉語音（TTS）領域的新標杆。AIbase爲您深入解析OpenAudio S1的突破性功能及其潛在影響。OpenAudio S1:重塑AI語音生成體驗OpenAudio S1是Fish Audio在Fish Speech系列基礎上的全新升級，憑藉先進的架構設計和大規模訓練數據，實現了前所未有的語音自然度和表現力。核心亮點包括: 高度自然的聲

據報道，OpenAI 董事會鬧劇將被改編成電影

近日，有消息稱，一部描繪 OpenAI 內部風波的電影正在籌備中。這部電影將聚焦於公司聯合創始人兼首席執行官薩姆・奧特曼（Sam Altman）在短短五天內被解僱又復職的戲劇性事件。據《好萊塢報道》指出，這部電影名爲《人工智能》，由亞馬遜 MGM 影業開發。目前，關於影片的具體細節尚未最終確定，但消息人士透露，導演盧卡・瓜達尼諾（Luca Guadagnino）正與製片方進行洽談。他以《以你的名字呼喚我》(Call Me by Your Name)和《挑戰者》(Challengers)而聞名。此外，製片方還在考慮由安德魯・加菲

OpenAI Codex 升級:語音輸入和聯網功能助力編程更智能

OpenAI 於6月4日宣佈對其編程工具 Codex 進行了全面升級，新增了語音輸入和聯網能力。這次更新不僅使得 Codex 向 ChatGPT Plus 用戶開放，還大大提高了開發者的工作效率。在新版本中，Codex 能夠在執行任務時訪問互聯網。這意味着開發者無需手動配置，Codex 可以自動安裝基礎依賴項，運行代碼檢查（Linting），並進行測試，甚至能夠執行需要訪問測試服務器的腳本。這一功能爲編程過程帶來了極大的便利，使得開發者能夠更專注於邏輯和功能的實現，而不是環境的配置。需要注意的是，OpenAI 對

OpenAI 宣佈免費向所有 ChatGPT 用戶開放記憶功能

OpenAI 在6月3日更新了其支持文檔，宣佈將記憶功能（Memory）免費向所有 ChatGPT 用戶開放。這一功能原本只限於 ChatGPT Plus 和 Pro 的付費用戶，現在逐步擴展至登錄的免費用戶，旨在更好地保存和引用用戶的歷史對話內容。圖源備註:圖片由AI生成，圖片授權服務商MidjourneyChatGPT 的記憶功能允許用戶的特定指令被記錄，例如，用戶可以選擇不使用破折號等特殊格式。未來，當用戶進行新對話時，ChatGPT 會自動引用與之前對話相關的內容，確保回覆更加連貫和針對性。用戶通過這項功能，可以更好

Fish Audio推出OpenAudio S1：200萬小時數據驅動的超自然語音模型

Fish Audio，一家專注於AI音頻技術的領先企業，於2025年6月3日正式推出了其最新文本轉語音（TTS）模型——OpenAudio S1。這一模型以其高度自然的語音輸出和卓越的情感表現力，爲語音生成技術樹立了新標杆，旨在爲開發者與企業提供高性能且成本效益優越的解決方案。突破性的規模與性能OpenAudio S1基於超過200萬小時的音頻數據集訓練，能夠精準捕捉多樣的語言風格、口音及情感表達。模型分爲兩個版本:擁有40億參數的完整版S1，專爲高性能需求設計;以及5億參數的S1-mini，優化了計算效率，適