阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

阿里巴巴通義大模型宣佈，其 “百聆” 系列語音模型迎來了重大升級，並正式開源。此次更新的兩款語音模型，能夠在僅需三秒的錄音後，實現無縫切換至多達九種語言和十八種方言，包括普通話、粵語、日語、英語等，同時還可以模擬多種情感如開心和憤怒。

在這次升級中，Fun-CosyVoice3模型得到了顯著改善。模型的首包延遲降低了50%，大幅提升了中英混說的準確率。此外，模型的音色克隆能力得到了增強，用戶只需提供一段三秒以上的錄音，便能復刻出相應的音色併合成新語音。此功能的開發使得實時語音助手、直播配音和無障礙閱讀等場景變得更加高效和便捷。

Fun-ASR 模型的能力同樣得到了提升，噪聲環境下的準確率達到了93%。這一模型不僅支持歌詞和說唱的識別，還可以進行多語言自由混說，覆蓋多種中文方言與口音。爲了提升用戶體驗，流式識別的首字延遲已降低至160毫秒，大幅提升了語音交互的流暢性。

此外，這兩款模型均支持本地部署與二次開發，開發者可以根據自己的需求進行定製化調整。開源地址也已公佈，用戶可以前往相關平臺體驗和使用這兩款語音模型，進一步推動語音技術在各個領域的應用。

GitHub:https://github.com/FunAudioLLM/CosyVoice

劃重點:
🌐 ** 多語言支持 **:三秒錄音即可實現9種語言和18種方言的切換。
⚙️ ** 技術升級 **:延遲降低50%，準確率提升，使語音交互更加流暢。
📦 ** 開源開放 **:模型支持本地部署和二次開發，便於個性化應用。

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

阿里巴巴在AI賽道下半場加速組織調整，6月8日宣佈將通義大模型事業部與未來生活實驗室合併，成立Token Foundry事業部，由集團CEO吳泳銘直接領導，標誌着AI佈局升至最高戰略層。此次調整不僅是業務合併，更是深度整合，旨在強化AI核心能力，推動創新與商業化落地。

博世聯手阿里雲，AI 智能座艙技術邁入新紀元！

近日，全球知名技術公司博世與阿里雲宣佈達成合作，共同探索大模型技術的應用。這一戰略合作將大幅提升博世在智能座艙中的人工智能技術，使其能夠實現更加人性化和智能化的駕駛環境。這次合作的核心在於 “通義大模型”，這是一個能夠支持多種複雜計算和場景理解的 AI 模型。通過引入這一模型，博世的智能座艙將具備環境主動感知的能力，意味着座艙能夠根據外部環境變化自動調整設置，提供更優質的駕駛體驗。同時，博世還計劃實現3D 數字人交互，這將使駕駛員和乘客能夠

阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

相關推薦

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

阿里巴巴宣佈大模型組織架構升級，成立Token Foundry事業部並設立AI未來研究院

阿里巴巴今日將召開千問App發佈會，或將推出AI閃購，整合地圖、外賣、購物、健康

中國企業大模型調用量突破10萬億Tokens，開源趨勢引領未來

博世聯手阿里雲，AI 智能座艙技術邁入新紀元！

​阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

相關推薦

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

阿里巴巴宣佈大模型組織架構升級，成立Token Foundry事業部並設立AI未來研究院

阿里巴巴今日將召開千問App發佈會 ，或將推出AI閃購，整合地圖、外賣、購物、健康

中國企業大模型調用量突破10萬億Tokens，開源趨勢引領未來

博世聯手阿里雲，AI 智能座艙技術邁入新紀元！

阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

阿里巴巴今日將召開千問App發佈會，或將推出AI閃購，整合地圖、外賣、購物、健康