相關推薦
科大訊飛發佈AI軟硬一體方案:在90分貝噪聲中也能精準識別
科大訊飛在2025年1024開發者節發佈AI軟硬一體解決方案,通過算法與硬件深度融合,解決了高噪聲、遠場等複雜環境下的識別難題,提升了語音與視覺智能的精準度,標誌着該領域的重要突破。
阿里通義推出 Qwen3-ASR-Toolkit,實現音視頻轉錄新突破
阿里通義Qwen團隊推出開源Python命令行工具Qwen3-ASR-Toolkit,支持便捷音視頻轉錄。該工具突破Qwen3-ASR-Flash API的三分鐘限制,實現小時級快速轉錄,爲大規模音頻處理提供有力支持。Qwen3-ASR-Flash是最新語音識別模型,基於海量多模態數據訓練。
阿里巴巴推出革命性語音識別模型FunAudio-ASR,降噪效果驚人
近日,阿里巴巴通義實驗室正式發佈了其最新的端到端語音識別大模型 ——FunAudio-ASR。這個模型的最大亮點在於它的創新 “Context 模塊”,讓高噪聲環境下的語音識別準確率得到了顯著提升,幻覺率從78.5% 大幅降低至10.7%,降幅近乎70%。這一技術突破爲語音識別行業樹立了新的標杆,尤其適用於嘈雜的場合,如會議、公共場所等。FunAudio-ASR 模型在訓練過程中使用了數千萬小時的音頻數據,並將大語言模型的語義理解能力融入其中,使其在遠場、嘈雜和多說話人等複雜條件下的表現,已經超
OpenAI Evals新增原生音頻輸入和評估功能
近日,OpenAI 的 Evals 工具迎來了令人振奮的重大更新,新增了原生音頻輸入和評估功能。這一創新意味着開發者們在測試和優化語音識別與生成模型時,可以直接使用音頻文件進行評估,而無需經過繁瑣的文本轉錄過程。這一變化極大地簡化了評估流程,使得音頻應用的開發變得更加高效。在以往的評估過程中,開發者們往往需要先將音頻內容轉化爲文本,這不僅費時費力,還可能影響評估結果的準確性。而現在,通過 Evals 的新功能,用戶只需簡單地上傳音頻文件,便可以在平臺上直接進
釘釘攜手通義實驗室推出全新語音識別大模型 Fun-ASR
釘釘與通義實驗室聯合推出新一代語音識別大模型Fun-ASR,具備出色的語音轉寫能力。該模型支持十大行業專業術語識別,可定製企業專屬模型,並能處理多語言和口音。基於上下文理解,實現精準語音識別。
