近日,阿里巴巴通義實驗室正式發佈了其最新的端到端語音識別大模型 ——FunAudio-ASR。這個模型的最大亮點在於它的創新 “Context 模塊”,讓高噪聲環境下的語音識別準確率得到了顯著提升,幻覺率從78.5% 大幅降低至10.7%,降幅近乎70%。這一技術突破爲語音識別行業樹立了新的標杆,尤其適用於嘈雜的場合,如會議、公共場所等。
FunAudio-ASR 模型在訓練過程中使用了數千萬小時的音頻數據,並將大語言模型的語義理解能力融入其中,使其在遠場、嘈雜和多說話人等複雜條件下的表現,已經超越了諸如 Seed-ASR、KimiAudio-8B 等衆多主流語音識別系統。通過這一技術的應用,用戶在進行語音識別時,能夠享受到更清晰、更精準的識別效果。

除了完整版本外,阿里還推出了輕量化版本 FunAudio-ASR-nano。該版本在保持高識別準確率的同時,降低了推理成本,適合那些對資源要求較高的部署環境。無論是大企業還是小型團隊,都能找到適合自己的解決方案。

目前,FunAudio-ASR 已經在釘釘的 “AI 聽記” 功能、視頻會議以及 DingTalk A1硬件中得到了實際應用。此外,其 API 也已在阿里雲百鍊平臺上正式上線,方便開發者進行集成和使用。對於企業用戶而言,這意味着他們可以利用這一先進技術提升會議效率,增強溝通效果。
FunAudio-ASR 不僅爲語音識別技術帶來了新突破,更爲用戶的實際應用提供了強大支持,推動了 AI 技術的進一步普及和應用。
官方介紹:https://mp.weixin.qq.com/s/7l5EPTU7cpz7GSN4RP91rg
