科大訊飛公司近日宣佈,其最新研發的訊飛星火多模態交互大模型正式投入運營。這一技術突破標誌着科大訊飛從單一的語音交互技術拓展到音視頻流實時多模態交互的新階段。新模型集成了語音、視覺和數字人交互功能,用戶可通過一鍵調用,實現三者的無縫結合。
訊飛星火多模態交互大模型的推出,首次引入了超擬人數字人技術,該技術能夠使數字人的軀幹和四肢動作與語音內容精準匹配,快速生成表情和動作,極大提升了AI的生動性和真實感。通過整合文本、語音和表情,新模型能夠實現跨模態的語義一致性,讓情感表達更加真實連貫。
此外,訊飛星火支持超擬人極速交互技術,利用統一神經網絡直接實現語音到語音的端到端建模,使得響應速度更快、更流暢。該技術能夠敏銳感知情緒變化,並根據指令自由調整聲音的節奏、大小和人設,提供更爲個性化的交互體驗。
在多模態視覺交互方面,訊飛星火能夠“聽懂世界”“認清萬物”,全面感知具體背景場景、物流狀態等信息,使得對任務的理解更加精準。通過綜合語音、手勢、行爲、情緒等多種信息,模型能夠作出合適的回覆,爲用戶提供更爲豐富和精準的交互體驗。
多模態交互大模型SDK:https://www.xfyun.cn/solutions/Multimodel