語音編輯像改Word？階躍星辰發佈30億參數音頻編輯模型Step-Audio-EditX

音頻創作門檻被徹底擊穿。國內AI獨角獸階躍星辰（StepStepFun AI）於11月9日正式發佈全球領先的LLM級音頻編輯模型——Step-Audio-EditX，首次實現“用自然語言指令編輯語音”的革命性體驗。用戶只需輸入“把這段話改成川渝rapper的囂張語氣”或“結尾加一個害羞的笑聲”，模型即可精準調整音色、情緒、節奏甚至呼吸停頓，讓語音編輯如修改文檔般直觀、高效。

30億參數，性能不減反升

Step-Audio-EditX的核心突破在於其極致高效的模型壓縮技術。團隊將原始130億參數模型精煉至僅30億，不僅大幅降低部署成本，更在關鍵指標上實現反超。模型支持零樣本語音克隆——僅需一句參考音頻，無需目標人物提供任何訓練數據，即可高保真復現其音色;同時支持多輪迭代編輯，用戶可連續發出細化指令（如“再溫柔一點”“笑聲延長0.3秒”），逐步逼近理想效果。

方言與情感，拿捏得死死的

該模型對中文語境的理解尤爲驚豔，流暢支持普通話、英語、四川話、粵語，方言表達中的地域情緒與語用習慣自然真實。在盲測中，評測員一致認爲其“川渝段子的市井感”“粵語語氣詞的細膩度”遠超同類產品。

硬剛閉源商用模型，三項指標全面領先

AIbase獲取的對比數據顯示，Step-Audio-EditX在三大核心維度碾壓Minimax與字節跳動Doubao等閉源方案:

自然度評分:4.72/5（Minimax4.51，Doubao4.38）

情感準確率:93.7%（領先第二名6.2個百分點）

音色保持度:98.1%，幾乎無損還原

應用場景爆發:從短視頻到無障礙服務

這一技術正催生全新內容形態:

短視頻博主可一鍵切換“元氣少女”“毒舌導師”等人設聲音;

有聲書創作者單人完成多角色情感對白;

四川話搞笑視頻經AI重製，秒變美式脫口秀風格出海;

聽障用戶的語音合成系統首次具備“情感溫度”，不再冰冷機械。

AIbase認爲，Step-Audio-EditX的意義遠超工具升級——它正在重構音頻內容的生產邏輯。當語音不再是“錄製即定型”的線性媒介，而成爲可反覆雕琢的“活文本”，億萬創作者將獲得前所未有的表達自由。下一步，若階躍星辰開放API或集成至手機系統，這把“AI魔法剪刀手”或將真正進入每個人的口袋，讓每一次發聲，都可被重新想象。

產品入口:https://stepaudiollm.github.io/step-audio-editx/

語音編輯像改Word？階躍星辰發佈30億參數音頻編輯模型Step-Audio-EditX

相關推薦

估值再攀高峯：月之暗面 Kimi 邁入“ARR 3 億美元”高速增長期

快手推出 KroWork:AI 桌面助手助你高效辦公

獨角獸人才保衛戰升級:DeepSeek以200億美元高估值融資應對大廠挖角

歐洲 AI 投行“孤狼”出擊：Air Street 募資 2.32 億美元，專投早期硬核科技

全能“代辦”上線！微軟發佈 Copilot Tasks：用雲端電腦幫你處理雜活

語音編輯像改Word？階躍星辰發佈30億參數音頻編輯模型Step-Audio-EditX

相關推薦

估值再攀高峯：月之暗面 Kimi 邁入“ARR 3 億美元”高速增長期

​快手推出 KroWork:AI 桌面助手助你高效辦公

獨角獸人才保衛戰升級:DeepSeek以200億美元高估值融資應對大廠挖角

歐洲 AI 投行“孤狼”出擊：Air Street 募資 2.32 億美元，專投早期硬核科技

​全能“代辦”上線！微軟發佈 Copilot Tasks：用雲端電腦幫你處理雜活

快手推出 KroWork:AI 桌面助手助你高效辦公

全能“代辦”上線！微軟發佈 Copilot Tasks：用雲端電腦幫你處理雜活