商湯テクノロジーは南洋理工大学のS-Labと共同で、業界初のネイティブなマルチモーダルアーキテクチャ「NEO」を発表し、同時に2Bおよび9Bのモデルをオープンソース化しました。新しいアーキテクチャは従来の「ビジョンエンコーダー+プロジェクター+言語モデル」という3段階の構成を採用せず、アテンションメカニズム、位置符号化、セマンティックマッピングをすべて再構築しています。公式によると、同等の性能においてデータ要件は業界平均の10分の1にとどまり、初めて「ピクセルからトークンへの連続的なマッピング」を実現しました。

image.png

商湯技術責任者の説明によると、NEOはネイティブなタイル埋め込み層を通じてピクセルを直接読み取り、独立した画像トークナイザを廃止しています。3D回転位置符号化(Native-RoPE)は、同じベクトル空間内でテキストと視覚・時空間周波数を同時に表現します。多頭アテンションでは「視覚の双方向+テキストの自己回帰」の混合計算を採用し、空間構造関連スコアが24%向上しています。実測結果では、0.6B〜8Bパラメータ範囲において、NEOはImageNet、COCO、Kinetics-400でSOTAを達成しており、エッジデバイスでの推論遅延は80ミリ秒未満です。

image.png

GitHubではモデル重みとトレーニングスクリプトが公開されており、商湯は来年第一四半期に3D認識と動画理解バージョンのオープンソース化を計画しています。業界関係者は、NEOの「深層融合」のアプローチがマルチモーダルの「積み木式」時代を終わらせ、エッジ端末向けの小さなモデルに新たなパフォーマンスの基準を提供するだろうと述べています。