火山引擎今日正式推出豆包語音識別模型2.0(Doubao-Seed-ASR-2.0),這一升級版本的語音識別技術不僅在推理能力上實現顯著提升,還支持多種語言和視覺信息的精準識別,標誌着語音識別技術的又一重大進步。
據悉,豆包語音識別模型2.0在繼承前一版本20億參數高性能音頻編碼器優勢的基礎上,專注於複雜場景的優化。該模型針對專有名詞、人名、地名及易混淆的多音字等難點進行深度學習,力求在各種應用場景中提供更高的準確率。模型的推理能力依託於先進的 PPO 方案,能夠在無需依賴目標詞彙歷史記錄的情況下,通過對上下文的深度理解,實現精準識別。

值得一提的是,豆包語音識別模型2.0的升級讓其具備了多模態理解能力,能夠同時分析文本和視覺信息。這意味着,在用戶發送圖像後,模型可以結合圖像內容進行語音識別,從而更準確地理解用戶的意圖。例如,當用戶描述一幅包含滑板的圖像時,傳統模型可能會誤將 “滑雞” 識別爲 “滑稽”,而豆包模型則能夠通過解析圖像判斷出用戶所說的確實是 “滑雞”,從而避免識別偏差。

此外,豆包語音識別模型2.0還支持日語、韓語、德語、法語等13種海外語言的精準識別。這一多語種支持將有效拓展其在跨語言應用場景中的使用,提升全球用戶的交互體驗。

火山引擎表示,豆包語音識別模型2.0現已在火山方舟體驗中心上線,並對外提供 API 服務,以便企業和開發者更便捷地接入該技術。未來,火山引擎將持續推動模型的進化,力爭在多模態、多場景下實現更精準的語音轉文字服務,爲用戶提供高效的解決方案。
火山引擎此次發佈的豆包語音識別模型2.0,充分展示了其在人工智能領域的持續創新能力和技術實力,預計將對行業標準和用戶體驗帶來積極影響。
