商湯科技與南洋理工大學S-Lab聯合發佈並開源全新多模態模型架構NEO,通過底層架構創新實現視覺與語言的深層統一,在性能、效率和通用性上取得全面突破。

極致數據效率:1/10數據量達頂尖性能

NEO最顯著的突破在於其極高的數據效率——僅需3.9億圖像文本示例,相當於業界同等性能模型1/10的數據量,便能開發出頂尖的視覺感知能力。無需依賴海量數據及額外視覺編碼器,NEO憑藉簡潔架構在多項視覺理解任務中追平Qwen2-VL、InternVL3等頂級模塊化旗艦模型。

在MMMU、MMB、MMStar、SEED-I、POPE等多項公開權威評測中,NEO均斬獲高分,綜合性能優於其他原生VLM,真正實現了原生架構"精度無損"。

從底層打破"拼湊式"設計桎梏

當前業內主流多模態模型大多遵循"視覺編碼器+投影器+語言模型"的模塊化範式。這種基於大語言模型的擴展方式雖然實現了圖像輸入兼容,但本質上仍以語言爲中心,圖像與語言的融合僅停留在數據層面。這種"拼湊"式設計不僅學習效率低下,更限制了模型在複雜多模態場景下的處理能力,尤其是涉及圖像細節捕捉或複雜空間結構理解的任務。

NEO則通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新,讓模型天生具備統一處理視覺與語言的能力。

兩大核心技術創新

原生圖塊嵌入(Native Patch Embedding):NEO摒棄了離散的圖像tokenizer,通過獨創的Patch Embedding Layer(PEL)自底向上構建從像素到詞元的連續映射。這種設計能更精細地捕捉圖像細節,從根本上突破了主流模型的圖像建模瓶頸。

原生多頭注意力(Native Multi-Head Attention):針對不同模態特點,NEO在統一框架下實現了文本token的自迴歸注意力和視覺token的雙向注意力並存。這種設計極大提升了模型對空間結構關聯的利用率,從而更好地支撐複雜的圖文混合理解與推理。