阿里通義正式推出新一代端到端語音識別大模型Fun-ASR,該模型通過強化上下文感知與高精度轉寫能力,在家裝、保險等垂直行業場景中實現語音識別準確率超15%的突破性提升。實測數據顯示,保險行業準確率較前代提升18%,家裝、畜牧等領域增幅達15%-20%。

作爲大語言模型驅動的語音識別算法,Fun-ASR採用自研語音算法與Qwen3監督微調技術,結合前沿模型架構與文本模態對齊技術,在保持語言處理優勢的同時,集成RAG檢索增強方案,支持超1000個自定義熱詞導入。該功能可自動匹配音頻中的領域熱詞、歷史文檔及上下文記錄,顯著優化特定場景下的關鍵詞識別效果。

阿里通義新一代語音模型Fun-ASR再進化 垂直領域識別準確率提升超15%

針對語音識別中的噪聲干擾、語種混淆及生成幻覺等痛點,研發團隊創新性引入強化學習(RL)技術,通過動態優化策略減少識別誤差,系統穩定性與可靠性獲實質性提升。值得關注的是,模型在四川話、粵語、閩南語等方言識別中表現優於同類產品,同時適應遠場拾音、近場降噪等複雜聲學環境,覆蓋會議室、工位、超市、戶外等多元場景。

訓練數據層面,Fun-ASR基於上億小時音頻數據構建,深度融合互聯網、科技、畜牧、汽車等十餘個領域的專業術語庫。這一數據優勢使其在垂直行業識別中展現出顯著優勢,例如在畜牧行業可精準識別牲畜叫聲與環境噪聲中的關鍵指令。

阿里通義技術團隊表示,Fun-ASR的進化標誌着語音識別技術從通用場景向專業化、場景化深度滲透。隨着模型在更多行業落地,其動態熱詞更新與多模態交互能力將進一步推動語音交互效率革新。