最新發佈的全球權威TTS(語音合成)評測榜單Artificial Analysis Speech Arena Leaderboard中,來自中國的階躍星辰(StepFun)展現出強勁實力。其語音生成模型StepAudio2.5TTS憑藉出色的聽感表現躋身全球前三,成爲目前該榜單中排名最高的中國大模型產品。

與傳統的實驗室數據指標不同,該榜單採用了更爲嚴苛的“盲測Elo評分機制”。在這種模式下,用戶在完全不知道模型身份的情況下,對兩段由同一文本生成的音頻進行主觀聽感評判。測試場景涵蓋了在線客服、知識分享、數字助手以及娛樂互動等真實生活片段。階躍星辰的勝出,意味着其生成的語音在真實用戶反饋中更具“人情味”,在語調自然度與表達感染力上已具備國際頂尖的競爭力。

image.png

目前,階躍星辰已密集發佈了StepAudio2.5系列的全鏈路模型,包括負責語音生成的TTS、主打高精度識別的ASR,以及最新上線的Realtime實時交互模型。其中,Realtime模型特別強調了“活人感”的營造,通過頂級的副語言能力和千萬人設的自定義功能,試圖爲用戶打造一個有溫度、有靈魂的AI聊天夥伴。

事實上,這家公司在語音AI領域的佈局早已鋪開。其開源原生推理模型Step Audio R1.1已在另一項全球語音推理榜單中連續四個月位居榜首;而另一款開源的情緒風格編輯模型Step Audio EditX,僅需3秒素材即可完成高質量的音色復刻,展現了極高的技術效率。

在技術落地的商業化路徑上,階躍語音模型也走在了前列。目前,該技術已成功搭載於吉利銀河M9等多款車型,實現了端到端語音大模型的量產上車。同時,在極氪8X等車型的智能交互系統中,該模型也作爲核心驅動力,爲整車智能體提供了更自然、流暢的交互體驗。