近日,Fish Audio公司發佈了全新的語音處理模型Fish Agent V0.13B,這款語音到語音模型能夠高效、精確地生成和處理語音,尤其擅長模擬或克隆不同的聲音。這意味着,我們距離擁有一個聲音自然、反應迅速的AI語音助手又近了一步。

Fish Agent V0.13B模型基於Qwen-2.5-3B-Instruct進行預訓練,並使用了包含2000億語音和文本令牌的海量數據集。與傳統模型需要先將語音轉換成複雜語義編碼不同,Fish Agent V0.13B採用了一種名爲“無語義令牌”的架構,直接在聲音層面上處理和生成語音。這種直接處理方式不僅簡化了模型結構,還提升了模型的反應速度和效率。

image.png

得益於這種創新架構,Fish Agent V0.13B能夠快速、自然地生成高質量語音,實現“即時”語音克隆和文本到語音轉換,文本到音頻轉換時間(TTFA)僅需200毫秒。這一特性使其非常適合需要實時語音生成的應用場景,例如語音助手、自動客服以及其他需要快速語音反饋的場景。

image.png

Fish Agent V0.13B模型支持多種語言,包括英語、中文、德語、日語、法語、西班牙語、韓語和阿拉伯語,並使用了約70萬小時的多語言音頻數據進行訓練。這意味着它能夠處理多種語言和語境,並生成更自然、更貼近真人發音的語音。

除了語音到語音生成和文本到語音轉換功能外,Fish Agent V0.13B還具備以下關鍵特性:

零樣本語音克隆:無需訓練即可實現語音克隆。

精簡的3B參數:使用30億參數,便於開發。

支持文本和音頻輸入:靈活的多輸入方式。

目前,Fish Audio已將Fish Agent V0.13B模型開源,並提供了初步演示版本供用戶體驗。該模型的發佈將進一步推動AI語音技術的發展,爲語音助手、虛擬人等應用帶來更多可能性。

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

模型下載: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

技術報告: https://arxiv.org/abs/2411.01156