語音AI“一步到位”！階躍開源 130B 統治級語音模型，實時對話+情感克隆，炸裂來襲

語音交互領域迎來里程碑式突破!國內AI公司階躍（Step Audio）近日震撼開源了一款 1300億參數的超大型語音模型，引發業界高度關注。這款被譽爲“統治級”的強大模型，是業界首個集語音理解與生成控制於一體的產品級開源實時語音對話系統，其功能的全面性和技術的先進性令人驚歎，預示着語音AI技術發展或將“一步到位”邁向新高度。

這款開源模型最核心的亮點在於其 一體化設計 和 強大的控制能力。它不僅能夠精準理解用戶語音指令，還能高度靈活地控制語音生成過程，實現前所未有的個性化語音交互體驗。

在 語言支持 方面，這款模型展現出驚人的多語言能力， 中文、英文、日語 流暢切換，輕鬆應對跨語言交流場景。更令人驚喜的是，它還深度支持方言，目前已覆蓋 粵語、四川話 等主流方言，讓語音交互更貼近生活，更具人情味。

除了語言，這款模型還能精細控制 語音情感，用戶可以自由設定語音的 情感基調，例如 開心、悲傷 等，讓AI的表達更富感染力。 語速和韻律風格 也可隨心調整，滿足不同場景下的表達需求。甚至更進一步，它還支持 RAP 和哼唱 等更具創造力的語音形式，爲內容創作帶來無限可能。

更令人震撼的是，這款模型還具備 語音克隆 功能，這意味着用戶可以利用這項技術，創造出極具個性化的語音助手，甚至實現聲音的“復刻”與“傳承”。

階躍此次開源如此強大的語音模型，無疑將極大地推動整個行業的技術進步和應用創新。它不僅大幅降低了語音AI技術的應用門檻，更預示着未來語音交互將變得更加智能、自然、個性化，真正融入人們的日常生活。

項目地址：https://github.com/stepfun-ai/Step-Audio/tree/main

OpenAI 語音 API 大進化：數字轉錄更精準，代理速度狂飆 40%

OpenAI推出兩項API更新，提升AI智能體在語音交互與複雜任務中的性能。全新實時模型gpt-realtime-1.5及配套音頻模型，顯著提高語音命令可靠性。內部測試顯示，新模型在數字字母轉錄準確率上提升約10%，邏輯音頻任務準確率提高5%，指令執行準確率提升7%。

語音AI“一步到位”！階躍開源 130B 統治級語音模型，實時對話+情感克隆，炸裂來襲

相關推薦

告別“你問我答”：ChatGPT 語音功能重磅升級，雙向實時對話時代開啓

語音交互大升級：Claude 醞釀多語言支持，通話式體驗呼之欲出

動動嘴就能寫代碼！Anthropic 發佈 Claude Code 語音模式

OpenAI 語音 API 大進化：數字轉錄更精準，代理速度狂飆 40%

OpenAI押注“語音優先”未來！整合多團隊重造音頻模型，首款AI音頻硬件或明年問世

語音AI“一步到位”！階躍開源 130B 統治級語音模型，實時對話+情感克隆，炸裂來襲

相關推薦

告別“你問我答”：ChatGPT 語音功能重磅升級，雙向實時對話時代開啓

語音交互大升級：Claude 醞釀多語言支持，通話式體驗呼之欲出

​動動嘴就能寫代碼！Anthropic 發佈 Claude Code 語音模式

OpenAI 語音 API 大進化：數字轉錄更精準，代理速度狂飆 40%

OpenAI押注“語音優先”未來！整合多團隊重造音頻模型，首款AI音頻硬件或明年問世

動動嘴就能寫代碼！Anthropic 發佈 Claude Code 語音模式