阿里通義實驗室最近開源了名爲FunAudioLLM的音頻生成大模型項目,旨在提升人類與大型語言模型(LLMs)間的自然語音交互體驗。該項目由兩個核心模型組成:SenseVoice和CosyVoice。

CosyVoice 專注於自然語音生成,具備多語言支持、音色和情感控制功能,在多語言語音生成、零樣本語音生成、跨語言聲音合成和指令執行方面表現出色。它通過15萬小時數據訓練,支持中英日粵韓五種語言,能夠快速模擬音色並提供情感和韻律的細粒度控制。

SenseVoice 則致力於高精度多語言語音識別、情感辨識和音頻事件檢測。它經過40萬小時數據訓練,支持超過50種語言,識別效果優於Whisper模型,尤其在中文和粵語上提升超過50%。SenseVoice還具備情感識別和聲音事件檢測能力,以及快速的推理速度。

微信截圖_20240708084503.png

FunAudioLLM支持多種人機交互應用場景,如多語言翻譯、情緒語音對話、互動播客和有聲讀物等。它通過結合SenseVoice、LLMs和CosyVoice,能夠實現無縫的語音到語音翻譯,情感語音聊天應用程序,以及互動式播客電臺。

技術原理方面,CosyVoice基於語音量化編碼,支持自然流暢的語音生成,而SenseVoice提供全面的語音處理功能,包括自動語音識別、語言識別、情感識別和音頻事件檢測。

開源的模型和代碼已在ModelScope和Huggingface上發佈,同時GitHub上也提供了訓練、推理和微調代碼。CosyVoice和SenseVoice模型都在ModelScope上有在線體驗,方便用戶直接嘗試這些先進的語音技術。

項目地址:https://github.com/FunAudioLLM