音頻創作門檻被徹底擊穿。國內AI獨角獸階躍星辰(StepStepFun AI)於11月9日正式發佈全球領先的LLM級音頻編輯模型——Step-Audio-EditX,首次實現“用自然語言指令編輯語音”的革命性體驗。用戶只需輸入“把這段話改成川渝rapper的囂張語氣”或“結尾加一個害羞的笑聲”,模型即可精準調整音色、情緒、節奏甚至呼吸停頓,讓語音編輯如修改文檔般直觀、高效。
30億參數,性能不減反升
Step-Audio-EditX的核心突破在於其極致高效的模型壓縮技術。團隊將原始130億參數模型精煉至僅30億,不僅大幅降低部署成本,更在關鍵指標上實現反超。模型支持零樣本語音克隆——僅需一句參考音頻,無需目標人物提供任何訓練數據,即可高保真復現其音色;同時支持多輪迭代編輯,用戶可連續發出細化指令(如“再溫柔一點”“笑聲延長0.3秒”),逐步逼近理想效果。

方言與情感,拿捏得死死的
該模型對中文語境的理解尤爲驚豔,流暢支持普通話、英語、四川話、粵語,方言表達中的地域情緒與語用習慣自然真實。在盲測中,評測員一致認爲其“川渝段子的市井感”“粵語語氣詞的細膩度”遠超同類產品。
硬剛閉源商用模型,三項指標全面領先
AIbase獲取的對比數據顯示,Step-Audio-EditX在三大核心維度碾壓Minimax與字節跳動Doubao等閉源方案:
自然度評分:4.72/5(Minimax4.51,Doubao4.38)
情感準確率:93.7%(領先第二名6.2個百分點)
音色保持度:98.1%,幾乎無損還原

應用場景爆發:從短視頻到無障礙服務
這一技術正催生全新內容形態:
短視頻博主可一鍵切換“元氣少女”“毒舌導師”等人設聲音;
有聲書創作者單人完成多角色情感對白;
四川話搞笑視頻經AI重製,秒變美式脫口秀風格出海;
聽障用戶的語音合成系統首次具備“情感溫度”,不再冰冷機械。
AIbase認爲,Step-Audio-EditX的意義遠超工具升級——它正在重構音頻內容的生產邏輯。當語音不再是“錄製即定型”的線性媒介,而成爲可反覆雕琢的“活文本”,億萬創作者將獲得前所未有的表達自由。下一步,若階躍星辰開放API或集成至手機系統,這把“AI魔法剪刀手”或將真正進入每個人的口袋,讓每一次發聲,都可被重新想象。
產品入口:https://stepaudiollm.github.io/step-audio-editx/
