在人工智能屢屢斬獲各類博士級競賽桂冠的今天,我們似乎默認了這些數字大腦已經全方位超越人類。然而,一項由 UniPat AI、xbench、阿里、月之暗面以及階躍星辰等多家頂尖機構聯合發佈的最新研究,卻給這種樂觀情緒潑了一盆冷水。研究結果令人咋舌:即便是在這一賽道領跑的 Gemini 3 Pro Preview,其視覺推理能力也僅僅是小勝三歲幼兒,而面對六歲兒童的認知水平,它依然存在 20% 的能力斷層。

這場被稱爲 BabyVision 的視覺推理“閉卷考試”,徹底暴露了大模型在物理世界感知上的短板。當人類幼兒能夠輕而易舉地完成“找不同”或空間拼圖時,那些在數學難題面前談笑風生的 AI 巨頭們卻紛紛翻車。
推理的“語言陷阱”:爲何 AI 看不清世界?
爲什麼坐擁萬億參數的大模型,會卡在如此基礎的視覺任務上?研究發現,癥結在於大模型至今仍是一個“語言動物”。它們在處理視覺信息時,習慣於先將圖像翻譯成文字描述,再進行邏輯推演。這種“曲線救國”的方式在處理宏觀概念時尚能應付,但在面對那些無法用言語精準捕捉的視覺特徵——比如微小的曲線偏移、複雜的幾何交叉點或是細膩的空間遮擋關係時,信息便在翻譯過程中大量丟失。

視覺推理的四大“滑鐵盧”
研究團隊通過 BabyVision 基準,將大模型的視覺缺陷歸納爲四大維度:
非言語精細細節缺失:大模型往往無法分辨像素級的幾何差異,在拼圖匹配中常因爲無法“想象”形狀的旋轉對齊而選錯答案。
流形一致性丟失:在長距離連線或軌跡追蹤任務中,大模型就像在迷宮中迷路的孩子,一旦遇到路徑交叉,極易“走岔”並丟失原有的感知線索。
空間想象力匱乏:文字敘述無法忠實還原三維空間,大模型在推斷積木的側視圖或隱藏體積時,頻繁出現數錯層數或投影錯誤的尷尬。
視覺模式歸納障礙:它們傾向於死板地“數屬性”而非理解變化規律,難以從少量視覺示例中抽象出深層的因果邏輯。
具身智能的陣痛與新生
這一結論無疑讓當前火熱的“具身智能”賽道倍感壓力。如果一個 AI 甚至無法像六歲孩子一樣準確識別身邊的物理環境,我們又該如何指望它在真實的物理世界中安全地協助人類?
針對這一瓶頸,研究者提出了兩條進化路徑:一是引入強化學習(RLVR),通過顯式的中間推理來對衝感知的不確定性;二是徹底擁抱原生多模態推理,讓模型學會像 Sora 2 那樣在像素空間內直接進行“視覺演算”,而非借道語言。
AI 進化史上的這一場“返祖”研究提醒我們,通往通用人工智能(AGI)的道路,或許並不在更高難度的數學題裏,而在那些六歲孩子就能輕鬆玩轉的拼圖遊戲中。

