正文

火山引擎發佈豆包語音識別模型2.0提升多語種識別精度

發布於AI新閒資訊

時間 :Dec 5, 2025

閱讀 :1分鐘

火山引擎今日正式推出豆包語音識別模型2.0（Doubao-Seed-ASR-2.0），這一升級版本的語音識別技術不僅在推理能力上實現顯著提升，還支持多種語言和視覺信息的精準識別，標誌着語音識別技術的又一重大進步。

據悉，豆包語音識別模型2.0在繼承前一版本20億參數高性能音頻編碼器優勢的基礎上，專注於複雜場景的優化。該模型針對專有名詞、人名、地名及易混淆的多音字等難點進行深度學習，力求在各種應用場景中提供更高的準確率。模型的推理能力依託於先進的 PPO 方案，能夠在無需依賴目標詞彙歷史記錄的情況下，通過對上下文的深度理解，實現精準識別。

值得一提的是，豆包語音識別模型2.0的升級讓其具備了多模態理解能力，能夠同時分析文本和視覺信息。這意味着，在用戶發送圖像後，模型可以結合圖像內容進行語音識別，從而更準確地理解用戶的意圖。例如，當用戶描述一幅包含滑板的圖像時，傳統模型可能會誤將 “滑雞” 識別爲 “滑稽”，而豆包模型則能夠通過解析圖像判斷出用戶所說的確實是 “滑雞”，從而避免識別偏差。

此外，豆包語音識別模型2.0還支持日語、韓語、德語、法語等13種海外語言的精準識別。這一多語種支持將有效拓展其在跨語言應用場景中的使用，提升全球用戶的交互體驗。

火山引擎表示，豆包語音識別模型2.0現已在火山方舟體驗中心上線，並對外提供 API 服務，以便企業和開發者更便捷地接入該技術。未來，火山引擎將持續推動模型的進化，力爭在多模態、多場景下實現更精準的語音轉文字服務，爲用戶提供高效的解決方案。

火山引擎此次發佈的豆包語音識別模型2.0，充分展示了其在人工智能領域的持續創新能力和技術實力，預計將對行業標準和用戶體驗帶來積極影響。

火山引擎發佈豆包音頻生成模型1.0：一句話生成影視級音頻，角色聲音 10 分鐘都不"串戲"

火山引擎發佈豆包音頻生成模型1.0，支持文本或音頻輸入，端到端生成完整音頻作品。核心突破是單條Prompt即可同步生成對白、音效和背景音樂，無需傳統多軌剪輯。該技術大幅簡化音頻製作流程，讓用戶像“音頻導演”一樣高效產出成片級音頻，徹底告別手動對齊混音的複雜後期工作。

Jun 24, 2026

256.7k

豆包音頻生成模型1. 0 發佈，開啓“音頻導演”時代

火山引擎發佈豆包音頻生成模型1.0，以“多模態參考生成”和“長時音色一致性”兩大核心技術，簡化傳統音頻後期流程，可一站式生成對白、音效與配樂，提升創作效率。

Jun 24, 2026

228.6k

豆包視頻生成大模型 Seedance 2.5 亮相，將於 7 月初正式發佈

字節跳動發佈豆包視頻生成模型Seedance2.5，單條視頻最長30秒，時長目前全球第一，已在全球企業內測，預計7月初正式發佈。

Jun 23, 2026

253.8k

火山引擎發佈豆包2.1Pro:日常功能確認免費，將推專業版辦公模式

2026年6月23日火山引擎FORCE大會，字節跳動發佈豆包大模型重大升級：推出2.1Pro，聚焦編程、智能體與視覺語言模型；同時發佈視頻生成模型Seedance 2.5及2.04K版、圖像生成模型Seedream 5.0 Pro、音頻生成模型1.0。2.1Pro已開放API並接入釦子生態。火山引擎總裁譚待表示，豆包面向用戶的日常基礎功能（如搜索問答）將持續免費。

Jun 23, 2026

477.8k

字節Seedance 2. 5 七月上線， 50 個素材同時輸入，還能"魔改"周星馳電影

火山引擎在2026原動力大會上發佈豆包視頻生成模型Seedance 2.5，實現跨越式升級。新模型支持單段原生30秒視頻直出，可同時導入最多50個全模態素材，生成可控性大幅提升。目前全球企業內測，預計7月初正式上線。

Jun 23, 2026

324.1k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

火山引擎發佈豆包語音識別模型2.0提升多語種識別精度

相關推薦

火山引擎發佈豆包音頻生成模型1.0：一句話生成影視級音頻，角色聲音 10 分鐘都不"串戲"

豆包音頻生成模型1. 0 發佈，開啓“音頻導演”時代

豆包視頻生成大模型 Seedance 2.5 亮相，將於 7 月初正式發佈

火山引擎發佈豆包2.1Pro:日常功能確認免費，將推專業版辦公模式

字節Seedance 2. 5 七月上線， 50 個素材同時輸入，還能"魔改"周星馳電影