1%的性能提升已成過去式？CVPR2026 揭示視覺智能正經歷“範式重寫”

從早期的ImageNet分類到如今的擴散模型，計算機視覺在過去十年間一直致力於讓機器“看清世界”。然而，當感知能力接近人類極限，單純追求準確率的邊際收益正在遞減。在CVPR2026上，視覺智能的研究重點發生了深刻轉向:視覺不再是終點，而是服務於推理、決策與交互的中介。

長期以來，多模態模型默認通過“思維鏈”（CoT）展開邏輯推理。但最新研究指出，這種“每一次都推理”的做法往往低效。例如VideoAuto-R1框架提出了“按需推理”概念:對於簡單感知任務直接作答，僅在複雜邏輯場景下觸發推理。實驗顯示，這種方式在保持最優性能的同時，將平均輸出長度縮減了3.3倍。

此外，推理媒介也在發生變化。以往模型高度依賴語言描述來處理空間關係，這在處理拼圖或幾何結構時顯得捉襟見肘。新的趨勢是讓模型在“潛在空間”內直接完成隱式視覺推理，無需將其轉化爲線性文本，從而更自然地刻畫複雜的視覺結構。

目前的視覺語言模型評測多采用多項選擇題（MCQA），但這可能系統性地高估了模型能力。研究發現，模型常通過排除法或選項偏差“投機取巧”，真實得分可能被虛高了約20個百分點。爲此，業界開始推動“可驗證開放問答”範式，迫使模型必須真正理解視覺內容而非依賴選項線索。

同時，評測場景正從單主體靜態圖像轉向多智能體環境。VS-Bench等新基準的出現，要求模型不僅要看懂環境，還要在合作、競爭等複雜交互中具備策略推理和決策能力。這標誌着視覺智能正從單純的“理解者”向“決策者”進化。

在模型形態上，開源界正迎來更徹底的透明度。Molmo2等模型不僅開放了權重，還完整公開了數據和訓練流程。這類模型將能力從單圖擴展至視頻，並引入了精細的定位功能，實現了從“看懂”到“指出位置”的跨越。

支撐這些進步的是日益完善的數據基礎設施。針對文本驅動的圖像編輯任務，Pico-Banana-400K等大規模真實數據集的推出，填補了以往過度依賴合成數據的空白。該數據集支持多輪編輯和偏好對齊，爲訓練更具常識和邏輯的編輯模型提供了紮實底座。

總的來看，視覺智能正從單一感知演進爲融合感知、認知與行動的一體化智能。這一過程並非簡單的性能小修小補，而是推理機制、評測範式與數據供給的系統性重構。

英偉達推出新一代多模態模型，智能體效率提升九倍