阿里巴巴通義實驗室語音團隊宣佈,其開源的語音生成大模型CosyVoice已升級至2.0版本,這一升級標誌着語音生成技術在準確性、穩定性和自然體驗方面的顯著進步。CosyVoice2.0通過採用離線和流式一體化建模的語音生成大模型技術,實現了雙向流式語音合成,首包合成延遲可達到150ms,顯著提升了語音合成的響應速度。

微信截圖_20241216105354.png

在發音準確性方面,CosyVoice2.0相比於前一版本錯誤率下降了30%至50%,在Seed-TTS測試集的hard測試集上取得了當前最低的字錯誤率,尤其在合成繞口令、多音字、生僻字方面表現出色。此外,2.0版本在零樣本語音生成和跨語言語音合成上保持了音色一致性,特別是跨語言語音合成能力相較於1.0版本有了明顯提升。

CosyVoice2.0在合成音頻的韻律、音質、情感匹配方面也有所增強,MOS評測分從5.4提升至5.53,接近某商業化語音合成大模型的評分。同時,2.0版本支持更多細粒度的情感控制和方言口音控制,爲用戶提供了更豐富的語言選擇,包括粵語、四川話、鄭州話、天津話和長沙話等主要方言,以及角色扮演功能,如模仿機器人、小豬佩奇的風格講話等。

CosyVoice2.0的升級,不僅提升了語音合成的技術和體驗,也進一步推動了開源社區的發展,鼓勵更多的開發者參與到語音處理技術的創新和應用中來。

  • GitHub倉庫:CosyVoice(https://github.com/FunAudioLLM/CosyVoice)查閱最新更新的CosyVoice2

  • 在線體驗DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

  • 開源代碼:https://github.com/FunAudioLLM/CosyVoice

  • 開源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B