正文

阿里通義實驗室語音生成大模型CosyVoice升級2.0版本

發布於AI新閒資訊

時間 :Dec 16, 2024

閱讀 :1分鐘

阿里巴巴通義實驗室語音團隊宣佈，其開源的語音生成大模型CosyVoice已升級至2.0版本，這一升級標誌着語音生成技術在準確性、穩定性和自然體驗方面的顯著進步。CosyVoice2.0通過採用離線和流式一體化建模的語音生成大模型技術，實現了雙向流式語音合成，首包合成延遲可達到150ms，顯著提升了語音合成的響應速度。

微信截圖_20241216105354.png

在發音準確性方面，CosyVoice2.0相比於前一版本錯誤率下降了30%至50%，在Seed-TTS測試集的hard測試集上取得了當前最低的字錯誤率，尤其在合成繞口令、多音字、生僻字方面表現出色。此外，2.0版本在零樣本語音生成和跨語言語音合成上保持了音色一致性，特別是跨語言語音合成能力相較於1.0版本有了明顯提升。

CosyVoice2.0在合成音頻的韻律、音質、情感匹配方面也有所增強，MOS評測分從5.4提升至5.53，接近某商業化語音合成大模型的評分。同時，2.0版本支持更多細粒度的情感控制和方言口音控制，爲用戶提供了更豐富的語言選擇，包括粵語、四川話、鄭州話、天津話和長沙話等主要方言，以及角色扮演功能，如模仿機器人、小豬佩奇的風格講話等。

CosyVoice2.0的升級，不僅提升了語音合成的技術和體驗，也進一步推動了開源社區的發展，鼓勵更多的開發者參與到語音處理技術的創新和應用中來。

GitHub倉庫:CosyVoice（https://github.com/FunAudioLLM/CosyVoice）查閱最新更新的CosyVoice2
在線體驗DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
開源代碼:https://github.com/FunAudioLLM/CosyVoice
開源模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

視頻生成初創公司PixVerse完成4.39億美元C輪融資，估值突破20億美元

新加坡視頻生成初創公司PixVerse宣佈完成4.39億美元C輪融資，估值超20億美元。阿里巴巴、Lollapalooza Capital、華僑銀行旗下Lion X Ventures等參投。此前3月已由鼎暉投資領投首期C輪。資金將用於全球模型服務、團隊擴招及企業業務全球化佈局。

Jul 14, 2026

177.9k

阿里巴巴內部“反向禁用”：全面下架 Claude 系列 AI 工具

阿里巴巴內部發文，要求員工停止使用 Anthropic Claude 全系產品，包括 Sonnet、Opus、Fable 等模型及 Claude Code 等智能體工具，最後期限爲 7 月 10 日。此舉與公司年初開放 AI 使用、提供內部模型免費額度並報銷外部模型的政策形成對比，預示着其在 AI 工具策略上的收緊和向自研體系的迴歸。

Jul 3, 2026

469.5k