2024年8月,科大訊飛正式推出星火極速超擬人交互技術,通過端到端語音建模與多維度情感解耦訓練,實現響應速度、情緒共鳴、語音可控表達三大核心突破。該技術可精準識別用戶語音中的情感波動,以適配語氣實時迴應,並支持語速、音色、角色人設的動態調整,標誌着語音交互從“功能實現”向“情感連接”的跨越式升級。

目前,超擬人交互API已正式上線訊飛開放平臺,開發者可低成本調用技術能力。在遊戲領域,NPC能根據玩家情緒動態調整對話策略;教育場景中,AI口語陪練可模擬外教真實反應;文旅行業則涌現出“數字導遊”,通過角色扮演與遊客深度互動。某景區試點顯示,搭載該技術的導遊AI使遊客停留時長增加40%,二次消費率提升25%。

微信截圖_20250708090735.png

傳統語音交互系統因採用“語音識別-大模型處理-語音合成”的串聯架構,導致平均響應時間達3秒以上,且情感傳遞依賴文本內容,難以捕捉語音中的語氣、節奏等副語言信息。星火極速超擬人交互技術採用統一神經網絡框架,直接實現語音到語音的端到端建模:語音信號經音頻編碼器提取特徵後,與文本語義表徵對齊,再由多模態大模型預測輸出表徵,最終通過音頻解碼器生成情緒自然、節奏精準的合成語音。這一創新使交互延遲壓縮至0.5秒內,響應模式從“你問我答”升級爲“實時對話”。

爲實現真正的情緒共鳴,技術團隊構建了多維度語音屬性解耦表徵體系,將內容、情感、語種、音色、韻律等要素分離訓練。通過對比學習和掩碼預測,系統可精準識別語音中的喜悅、憤怒、焦慮等情緒,並自動調整迴應策略。例如,當用戶焦急詢問路線時,AI會以沉穩語氣快速規劃路徑;當用戶分享趣事時,AI則用輕鬆語調延伸話題。此外,開發者可通過API自定義AI角色人設,使其具備特定價值觀、語言風格,甚至模擬名人音色進行互動。

爲降低應用門檻,訊飛推出階梯式定價策略:API調用成本低至0.1元/分鐘,企業用戶通過認證可獲3個月、10小時免費試用額度。對比傳統語音交互系統需單獨採購語音識別、合成、NLP等模塊,星火極速超擬人技術將整體成本降低60%以上。