科大訊飛星火多模態交互大模型上線實現“語音、視覺、數字人交互”三合一

科大訊飛公司近日宣佈，其最新研發的訊飛星火多模態交互大模型正式投入運營。這一技術突破標誌着科大訊飛從單一的語音交互技術拓展到音視頻流實時多模態交互的新階段。新模型集成了語音、視覺和數字人交互功能，用戶可通過一鍵調用，實現三者的無縫結合。

訊飛星火多模態交互大模型的推出，首次引入了超擬人數字人技術，該技術能夠使數字人的軀幹和四肢動作與語音內容精準匹配，快速生成表情和動作，極大提升了AI的生動性和真實感。通過整合文本、語音和表情，新模型能夠實現跨模態的語義一致性，讓情感表達更加真實連貫。

微信截圖_20241115083401.png

此外，訊飛星火支持超擬人極速交互技術，利用統一神經網絡直接實現語音到語音的端到端建模，使得響應速度更快、更流暢。該技術能夠敏銳感知情緒變化，並根據指令自由調整聲音的節奏、大小和人設，提供更爲個性化的交互體驗。

微信截圖_20241115083600.png

在多模態視覺交互方面，訊飛星火能夠“聽懂世界”“認清萬物”，全面感知具體背景場景、物流狀態等信息，使得對任務的理解更加精準。通過綜合語音、手勢、行爲、情緒等多種信息，模型能夠作出合適的回覆，爲用戶提供更爲豐富和精準的交互體驗。

多模態交互大模型SDK：https://www.xfyun.cn/solutions/Multimodel

DeepSeek大範圍開放識圖模式:多模態理解功能正式開啓內測

DeepSeek於5月9日大規模開放“識圖模式”內測，標誌其進入圖文多模態交互時代。此前4月底小範圍灰度測試後，多數賬號現可通過對話界面獨立入口使用該功能。系統雖仍標註內測，但功能與“快速模式”、“專家模式”並列，預示多模態理解成核心方向。

OpenAI 發佈 ChatGPT Images2.0，印度市場貢獻首周最大用戶增量

OpenAI 週四宣佈，其新圖像生成工具ChatGPT Images2.0發佈後，印度成爲最大用戶羣體。該工具可處理複雜提示並生成含多語言文本的精細圖像，深化多模態交互。Sensor Tower數據顯示，全球下載量首周環比增11%，但日活躍用戶和會話數等核心參與指標呈現地域差異。

谷歌推出 Gemini Omni 模型，開啓多模態交互新時代！