商湯科技と南洋理工大学のS-Labは、新たなマルチモーダルモデルアーキテクチャ「NEO」を共同で発表し、オープンソース化しました。このモデルは、下位階層のアーキテクチャのイノベーションにより、視覚と言語の深い統一を実現し、性能、効率性、汎用性において全面的な突破を達成しました。
極限的なデータ効率:1/10のデータ量でトップクラスのパフォーマンス
NEOの最も顕著な進歩はその高いデータ効率です。3.9億の画像・テキストの例えが必要であり、業界で同レベルのパフォーマンスを持つモデルの1/10のデータ量で、トップクラスの視覚認識能力を開発できます。膨大なデータや追加の視覚エンコーダーに依存する必要がなく、シンプルなアーキテクチャにより、いくつかの視覚理解タスクでQwen2-VLやInternVL3などのトップクラスのモジュール型エリートモデルに並ぶことができました。
MMMU、MMB、MMStar、SEED-I、POPEなどの公開された権威ある評価で、NEOはすべて高得点を獲得し、総合的なパフォーマンスが他のネイティブVLMを上回っています。これは、ネイティブアーキテクチャ「精度無損」を本当に実現したものです。

下位レベルから「組み合わせ式」設計の呪縛を打ち破る
現在業界で主流のマルチモーダルモデルは、「視覚エンコーダー+プロジェクター+言語モデル」のモジュール型パターンを採用しています。この方法では、大規模言語モデルに基づいて画像入力を対応させていますが、本質的には言語を中心に据えており、画像と言語の統合はデータレベルにとどまっています。このような「組み合わせ」的な設計は、学習効率が低く、複雑なマルチモーダルシナリオでの処理能力を制限しており、特に画像の細部のキャプチャや複雑な空間構造の理解に関わるタスクでは問題があります。
NEOは、注目機構、位置符号化、意味マッピングという3つの重要な次元における下位レベルのイノベーションを通じて、モデルが天生的に視覚と言語を統合して処理できるようにしています。
2つの主要な技術革新
ネイティブパッチ埋め込み(Native Patch Embedding): NEOは離散的な画像トークナイザを廃止し、独自のパッチ埋め込みレイヤー(PEL)を用いて、ピクセルからトークンへの連続的なマッピングを自底向上に構築します。この設計は画像の細部をより正確に捉えることができ、主流モデルの画像モデリングのバリアを根本的に突破します。
ネイティブマルチヘッド注目(Native Multi-Head Attention)
