科大訊飛星火同傳語音大模型發佈：達到人類專家譯員水平

今日，科大訊飛正式發佈了其最新研發的星火同傳語音大模型，標誌着國內首個具備端到端語音同傳能力的大模型正式面世。這一創新技術相較於訊飛此前的翻譯技術，實現了全場景翻譯效果的顯著提升，並大幅縮短了端到端的響應時間。

星火同傳語音大模型的發佈，爲用戶帶來了更加流暢、精準的同傳體驗。在訊飛演示中，搭載了星火同傳語音大模型的訊飛翻譯機在英譯中語音同傳方面幾乎實現了無延遲，非常適合出國旅遊、國際展會等場景使用。這一優化不僅顯著提升了翻譯字幕的呈現速度，還保證了中英互譯的準確性。

微信截圖_20250115110120.png

據瞭解，星火同傳語音大模型支持譯文長度反向調控，語音到文本的端到端翻譯過程中，能夠流式地進行意羣切分、語境理解和信息重組。同時，流式語音合成技術還能夠支持意羣韻律銜接和自適應語速調節，進一步提升了翻譯的自然度和流暢度。

在國際交流場景中，無論是日常對話、商務交流還是行業翻譯等高難度同傳翻譯需求，星火同傳語音大模型都展現出了卓越的性能。其內容完整度、信息準確度以及語言質量均處於行業領先水平，並超越了谷歌Gemini2.0和OpenAI GPT-4o等同傳技術。最快可實現5秒以內的同傳時延，達到了人類專家譯員的水平。

科大訊飛的星火同傳語音大模型的發佈，不僅代表了國內AI翻譯技術的重大突破，也預示着未來國際交流將更加便捷和高效。

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

復旦大學MOSS團隊發佈MOSS-Speech，首次實現端到端語音對話，模型已在Hugging Face上線並開源。採用“層拆分”架構，凍結原文本模型，新增語音理解、語義對齊和聲碼器層，可一次性完成語音問答、情緒模仿和笑聲生成，無需傳統三段式流程。評測顯示，在ZeroSpeech2025任務中詞錯率降至4.1%，情感識別準確率達91.2%。

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

9月19日，小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio，這一創新成果標誌着語音技術領域的一次重大突破。五年前，GPT-3的出現開啓了語言通用人工智能（AGI）的新紀元，但語音領域一直受限於對大規模標註數據的依賴，難以實現類似的語言模型的少樣本泛化能力。如今，小米推出的 Xiaomi-MiMo-Audio 模型基於創新的預訓練架構和上億小時的訓練數據，首次在語音領域實現了基於 In-Context Learning(ICL)的少樣本泛化，並在預訓練過程中觀察到了明顯的“涌現”行爲。 Xiaomi-MiMo-Audio 模型在多個標準評測基準中表現出色，其性能不僅超越了同參數量的開源模型，還在音頻理解基準 MMAU 的標準測試集上超過了 Google 的閉源語音模型 Gemini-2.5-Flash，並在音頻複雜推理基準 Big Bench Audio S2T 任務中超越

開源端到端語音大模型Step-Audio-AQAA：聽懂音頻直接生成自然語音

在人工智能領域，尤其是生成式對抗網絡（AIGC）方面的不斷進展，語音交互已成爲一個重要的研究方向。傳統的大語言模型(LLM)主要專注於文本處理，無法直接生成自然語音，這在一定程度上影響了人機音頻交互的流暢性。爲了突破這一侷限，Step-Audio 團隊開源了一款全新的端到端語音大模型 ——Step-Audio-AQAA。該模型能夠直接從原始音頻輸入生成自然流暢的語音輸出，使得人機交流更加自然。Step-Audio-AQAA 的架構由三個核心模塊組成:雙碼本音頻標記器、骨幹 LLM 和神經聲碼器。其中，雙碼本

科大訊飛星火同傳語音大模型發佈：達到人類專家譯員水平

相關推薦

特斯拉車機語音大模型在滬完成備案，智能座艙體驗迎來AI升級

MOSS-Speech開源：國內首個語音到語音大模型，告別文本中介

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio

開源語音大模型 “Step-Audio 2 mini” 發佈！聽得清楚、說得自然

開源端到端語音大模型Step-Audio-AQAA：聽懂音頻直接生成自然語音