4月10日に行われた商湯科技の技術交流会で、同社は最新のマルチモーダル融合大規模言語モデル「商湯日日新 SenseNova V6」と「商湯大装置 SenseCore2.0」を発表しました。この新型大規模言語モデルは、テキスト、画像、動画など様々な情報形式を統合し、より自然で豊かなインタラクティブ体験を提供することを目指しています。
今回発表されたSenseNova V6シリーズには4つのバージョンがあり、中でも注目すべきは6200億パラメーターの混合専門家アーキテクチャを採用したSenseNova V6Proです。強力なマルチモーダル融合能力を備えています。SenseNova V6Reasoner Proは、さらにマルチモーダル推論能力を強化し、より深い論理分析を可能にしています。また、SenseNova V6Videoは動画理解に特化し、動画の内容を効果的に要約し、深層分析を行います。SenseNova V6Omniは軽量な全モーダルインタラクションモデルで、言語、音声、動画を組み合わせ、リアルタイムインタラクションを提供します。
現場デモでは、SenseNova V6はその独自のマルチモーダル能力を披露しました。ユーザーは手書きの数学の問題の写真をモデルと共有することで、モデルは問題を解くだけでなく、ユーザーの解答を分析し、音声ガイドで解法を段階的に理解させ、ユーザーが問題に遭遇した際にはリアルタイムで質問に答えます。この機能により、SenseNova V6はまるで個人の家庭教師のようです。
商湯科技の共同創業者である林達華氏は、未来のインタラクションは必ずマルチモーダルになると述べ、商湯の目標は未来のインタラクションの中核技術を掌握することだと強調しました。また、現在、国内企業におけるマルチモーダル推論とインタラクション能力の研究開発は比較的少ないと指摘し、商湯はコンピュータビジョン分野での優位性を活かし、マルチモーダル大規模言語モデル市場の先手を打つことを目指していると述べました。
さらに、商湯のSenseNova V6Proが持つマルチモーダル能力は、Gemini2.0ProやGPT-4.5などの国際的な主流モデルと肩を並べるレベルに達しています。商湯は、強力な推論、強力なインタラクション、長期記憶が技術能力の3つの重要なブレークスルーであると強調しました。これらの能力により、モデルは人間の意図をより適切に理解し、ユーザーとより親密なインタラクション関係を築くことができます。
商湯科技は、SenseNova V6を実際のビジネスシーンに導入し、様々な分野におけるユーザーのニーズに応える計画です。新たな応用シーンは教育、翻訳、観光など多岐に渡り、また、具象知能企業の傅利葉と協力し、ロボットに環境理解力と人と機械のインタラクション能力を強化し、真の知能化された未来を実現します。