語音交互領域迎來里程碑式突破!國內AI公司階躍(Step Audio)近日震撼開源了一款 1300億參數的超大型語音模型,引發業界高度關注。這款被譽爲“統治級”的強大模型,是業界首個集語音理解與生成控制於一體的產品級開源實時語音對話系統,其功能的全面性和技術的先進性令人驚歎,預示着語音AI技術發展或將“一步到位”邁向新高度。

這款開源模型最核心的亮點在於其 一體化設計 和 強大的控制能力。它不僅能夠精準理解用戶語音指令,還能高度靈活地控制語音生成過程,實現前所未有的個性化語音交互體驗。

image.png

在 語言支持 方面,這款模型展現出驚人的多語言能力, 中文、英文、日語 流暢切換,輕鬆應對跨語言交流場景。 更令人驚喜的是,它還深度支持 方言,目前已覆蓋 粵語、四川話 等主流方言,讓語音交互更貼近生活,更具人情味。

除了語言,這款模型還能精細控制 語音情感,用戶可以自由設定語音的 情感基調,例如 開心、悲傷 等,讓AI的表達更富感染力。 語速和韻律風格 也可隨心調整,滿足不同場景下的表達需求。 甚至更進一步,它還支持 RAP 和哼唱 等更具創造力的語音形式,爲內容創作帶來無限可能。

image.png

更令人震撼的是,這款模型還具備 語音克隆 功能,這意味着用戶可以利用這項技術,創造出極具個性化的語音助手,甚至實現聲音的“復刻”與“傳承”。

階躍此次開源如此強大的語音模型,無疑將極大地推動整個行業的技術進步和應用創新。 它不僅大幅降低了語音AI技術的應用門檻,更預示着未來語音交互將變得更加智能、自然、個性化,真正融入人們的日常生活。

項目地址:https://github.com/stepfun-ai/Step-Audio/tree/main