商湯科技は 28日に、日日新 SenseNova U1シリーズのネイティブな理解・生成統一モデルを公開しました。このモデルは、今年3月に自社で開発したNEO-unifyアーキテクチャを基盤としており、単一のモデルフレームワーク内でマルチモーダルな理解、推論、生成の深い統合を実現し、マルチモーダルAIのパラダイムが「統合型」から「ネイティブ統一」への重要な飛躍を示しています。

SenseNova U1で採用されているNEO-unifyアーキテクチャは、一般的なモデルで見られる結合型設計を完全に取り除き、視覚エンコーダ(VE)と変分自己符号化器(VAE)を排除し、統一された表現空間を再構築しました。このアーキテクチャにより、マルチモーダル処理が各層の計算に深く組み込まれ、言語と視覚情報が統一された複合体として直接モデリングされるようになります。これにより、意味の豊かさを保ちながらピクセルレベルの視覚の正確性も維持されます。この技術を活用することで、モデルは論理的推論と空間知能の分野で顕著な性能を発揮し、物理的な世界の複雑な構造と詳細な関係を正確に理解できます。

身体知能のトレンドの進化に伴い、商湯科技