近日,階躍星辰正式推出了最新的開源端到端語音大模型 ——Step-Audio2mini。這款模型在多個國際基準測試中表現優異,獲得了 SOTA(最先進技術)成績,令人矚目。Step-Audio2mini 不僅在語音理解和音頻生成方面能力強大,還首次將音頻推理和生成統一建模,爲語音識別、跨語言翻譯和情感解析等多種應用場景提供了出色的解決方案。

Step-Audio2mini 的特點之一是其卓越的多模態音頻理解能力。在 MMAU(多模態音頻理解測試集)上,該模型以73.2的得分穩居開源語音模型的榜首。在口語對話能力的 URO Bench 測試中,無論基礎賽道還是專業賽道,Step-Audio2mini 都取得了開源模型中的最高分,展現出其出色的對話理解與表達能力。

image.png

在中英互譯任務中,Step-Audio2mini 也表現不俗。在 CoVoST2和 CVSS 評測集上,分別獲得了39.3和29.1的高分,明顯超越了 GPT-4o Audio 和其他開源語音模型。此外,該模型在語音識別方面同樣出類拔萃,在開源中文測試集上的字錯誤率(CER)爲3.19,在開源英語測試集上的詞錯誤率(WER)爲3.50,領先其他開源模型超過15%。

image.png

Step-Audio2mini 的成功離不開其創新的架構設計。該模型打破了傳統的 ASR(自動語音識別)、LLM(大語言模型)和 TTS(文本轉語音)的三級結構,實現了從原始音頻輸入到語音響應輸出的直接轉換,簡化了架構,降低了延遲。此外,模型還引入了鏈式思維推理(CoT)與強化學習的聯合優化技術,使其能夠更好地理解情緒、語調等副語言信息,並自然地作出反應。

值得一提的是,Step-Audio2mini 還支持音頻知識增強功能,能夠利用外部工具進行聯網搜索,解決了傳統模型中的幻覺問題。這一創新不僅提升了模型的實用性,還擴展了其在多種場景中的應用潛力。

目前,Step-Audio2mini 已在 GitHub、Hugging Face 等平臺上線,歡迎開發者們前去試用和貢獻代碼!