從早期的ImageNet分類到如今的擴散模型,計算機視覺在過去十年間一直致力於讓機器“看清世界”。然而,當感知能力接近人類極限,單純追求準確率的邊際收益正在遞減。在CVPR2026上,視覺智能的研究重點發生了深刻轉向:視覺不再是終點,而是服務於推理、決策與交互的中介。

告別“盲目推理”:邁向自適應與隱式路徑

長期以來,多模態模型默認通過“思維鏈”(CoT)展開邏輯推理。但最新研究指出,這種“每一次都推理”的做法往往低效。例如VideoAuto-R1框架提出了“按需推理”概念:對於簡單感知任務直接作答,僅在複雜邏輯場景下觸發推理。實驗顯示,這種方式在保持最優性能的同時,將平均輸出長度縮減了3.3倍。

image.png

此外,推理媒介也在發生變化。以往模型高度依賴語言描述來處理空間關係,這在處理拼圖或幾何結構時顯得捉襟見肘。新的趨勢是讓模型在“潛在空間”內直接完成隱式視覺推理,無需將其轉化爲線性文本,從而更自然地刻畫複雜的視覺結構。

評測體系反思:打破“選擇題”的虛假繁榮

目前的視覺語言模型評測多采用多項選擇題(MCQA),但這可能系統性地高估了模型能力。研究發現,模型常通過排除法或選項偏差“投機取巧”,真實得分可能被虛高了約20個百分點。爲此,業界開始推動“可驗證開放問答”範式,迫使模型必須真正理解視覺內容而非依賴選項線索。

同時,評測場景正從單主體靜態圖像轉向多智能體環境。VS-Bench等新基準的出現,要求模型不僅要看懂環境,還要在合作、競爭等複雜交互中具備策略推理和決策能力。這標誌着視覺智能正從單純的“理解者”向“決策者”進化。

image.png

基礎設施升級:開源模型與真實數據補全

在模型形態上,開源界正迎來更徹底的透明度。Molmo2等模型不僅開放了權重,還完整公開了數據和訓練流程。這類模型將能力從單圖擴展至視頻,並引入了精細的定位功能,實現了從“看懂”到“指出位置”的跨越。

支撐這些進步的是日益完善的數據基礎設施。針對文本驅動的圖像編輯任務,Pico-Banana-400K等大規模真實數據集的推出,填補了以往過度依賴合成數據的空白。該數據集支持多輪編輯和偏好對齊,爲訓練更具常識和邏輯的編輯模型提供了紮實底座。

總的來看,視覺智能正從單一感知演進爲融合感知、認知與行動的一體化智能。這一過程並非簡單的性能小修小補,而是推理機制、評測範式與數據供給的系統性重構。