9月1日,階躍星辰正式發佈最強開源端到端語音大模型Step-Audio2mini。該模型在多個國際基準測試集上取得了SOTA(State-of-the-Art)成績,將語音理解、音頻推理與生成統一建模,在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、語音對話等任務中表現突出,並率先支持語音原生的Tool Calling能力,可實現聯網搜索等操作。Step-Audio2mini被形容爲“聽得清楚、想得明白、說得自然”,其模型現已上線GitHub、Hugging Face等平臺,供用戶下載、試用並反饋。
Step-Audio2mini在多個關鍵基準測試中取得SOTA成績,在音頻理解、語音識別、翻譯和對話場景中表現卓越,綜合性能超越Qwen-Omni、Kimi-Audio等所有開源端到端語音模型,並在大部分任務上超越GPT-4o Audio。在通用多模態音頻理解測試集MMAU上,Step-Audio2mini以73.2的得分位列開源端到端語音模型榜首;在衡量口語對話能力的URO Bench上,Step-Audio2mini在基礎與專業賽道均拿下開源端到端語音模型最高分;在中英互譯任務上,Step-Audio2mini在CoVoST2和CVSS評測集上分別取得39.3和29.1的分數,大幅領先GPT-4o Audio和其他開源語音模型;在語音識別任務上,Step-Audio2mini取得多語言和多方言第一,其中開源中文測試集平均CER(字錯誤率)3.19,開源英語測試集平均WER(詞錯誤率)3.50,領先其他開源模型15%以上。

Step-Audio2mini通過創新架構設計,有效解決了此前語音模型存在的問題,做到“走腦又走心”。它採用真端到端多模態架構,突破傳統ASR+LLM+TTS三級結構,實現原始音頻輸入到語音響應輸出的直接轉換,架構更簡潔、時延更低,並能有效理解副語言信息與非人聲信號。此外,Step-Audio2mini在端到端語音模型中首次引入鏈式思維推理(CoT)與強化學習聯合優化,能對情緒、語調、音樂等副語言和非語音信號進行精細理解、推理並自然迴應。模型還支持包括web檢索等外部工具,有助於解決幻覺問題,並賦予模型在多場景擴展上的能力。
Step-Audio2mini的能力在案例中得到了生動展示。它能精準識別大自然的聲音、精湛的配音,還能實時搜索獲得行業最新資訊。此外,Step-Audio2mini還能控制語速,輕鬆應對不同場景的對話需求。當被問及哲學難題時,Step-Audio2mini能將抽象問題轉化爲極簡方法論,展現強大的邏輯推理能力。
GitHub:https://github.com/stepfun-ai/Step-Audio2
Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
