阿里巴巴通義大模型宣佈,其 “百聆” 系列語音模型迎來了重大升級,並正式開源。此次更新的兩款語音模型,能夠在僅需三秒的錄音後,實現無縫切換至多達九種語言和十八種方言,包括普通話、粵語、日語、英語等,同時還可以模擬多種情感如開心和憤怒。
在這次升級中,Fun-CosyVoice3模型得到了顯著改善。模型的首包延遲降低了50%,大幅提升了中英混說的準確率。此外,模型的音色克隆能力得到了增強,用戶只需提供一段三秒以上的錄音,便能復刻出相應的音色併合成新語音。此功能的開發使得實時語音助手、直播配音和無障礙閱讀等場景變得更加高效和便捷。

Fun-ASR 模型的能力同樣得到了提升,噪聲環境下的準確率達到了93%。這一模型不僅支持歌詞和說唱的識別,還可以進行多語言自由混說,覆蓋多種中文方言與口音。爲了提升用戶體驗,流式識別的首字延遲已降低至160毫秒,大幅提升了語音交互的流暢性。
此外,這兩款模型均支持本地部署與二次開發,開發者可以根據自己的需求進行定製化調整。開源地址也已公佈,用戶可以前往相關平臺體驗和使用這兩款語音模型,進一步推動語音技術在各個領域的應用。
GitHub:https://github.com/FunAudioLLM/CosyVoice
劃重點:
🌐 ** 多語言支持 **:三秒錄音即可實現9種語言和18種方言的切換。
⚙️ ** 技術升級 **:延遲降低50%,準確率提升,使語音交互更加流暢。
📦 ** 開源開放 **:模型支持本地部署和二次開發,便於個性化應用。
