在4月10日的商湯技術交流日上,商湯科技發佈了其最新的多模態融合大模型 “商湯日日新 SenseNova V6” 及 “商湯大裝置 SenseCore2.0” 體系。這一新版本大模型旨在整合文本、圖像和視頻等多種信息形式,爲用戶提供更爲自然和豐富的交互體驗。
此次推出的 SenseNova V6系列包含四個版本,其中最引人注目的是 SenseNova V6Pro,它採用了6200億參數的混合專家架構,展現了強大的多模態融合能力。SenseNova V6Reasoner Pro 則在此基礎上增強了多模態推理能力,能夠進行更深入的邏輯分析。此外,SenseNova V6Video 專注於視頻理解,能夠有效總結視頻內容並進行深度分析,而 SenseNova V6Omni 則是一個輕量級的全模態交互模型,結合語言、語音和視頻,提供實時交互。
在現場演示中,SenseNova V6展現了其獨特的多模態能力。用戶可以通過手寫數學題的照片與模型互動,模型不僅能夠解題,還能分析用戶的答案,並通過語音引導用戶逐步理解解題思路,甚至在用戶遇到問題時提供實時答疑。這一特性使得 SenseNova V6更像是一個私人輔導老師。
商湯科技聯合創始人林達華表示,未來的交互必將是多模態的,商湯的目標是掌握未來交互的核心技術。他指出,當前國內企業在多模態推理與交互能力的研發上相對較少,商湯希望通過在計算機視覺領域的優勢,提前佈局多模態大模型的市場。
此外,商湯的 SenseNova V6Pro 具備的多模態能力已經能夠與國際主流模型如 Gemini2.0Pro 和 GPT-4.5相抗衡。商湯還強調,強推理、強交互和長記憶是其技術能力的三大關鍵突破。這些能力不僅能讓模型更好地理解人類的意圖,還能與用戶建立更爲親切的互動關係。
商湯科技計劃將 SenseNova V6嵌入真實業務場景中,滿足用戶在不同領域的需求。新的應用場景涵蓋教學、翻譯、旅遊等多個方向,同時商湯也與具身智能企業傅利葉展開合作,賦予機器人更強的環境理解和人機交互能力,真正實現智能化的未來。