來自德國達姆施塔特工業大學的最新研究揭示了一個令人深思的現象:即便是當前最先進的AI圖像模型,在面對簡單的視覺推理任務時也會出現明顯失誤。這項研究結果對AI視覺能力的評估標準提出了新的思考。

研究團隊採用了由俄羅斯科學家Michail Bongard設計的Bongard問題作爲測試工具。這類視覺謎題由12張簡單圖像組成,分爲兩組,要求識別出區分這兩組的規則。對於大多數人來說,這種抽象推理任務並不困難,但AI模型的表現卻令人意外。

image.png

即便是目前被認爲最先進的多模態模型GPT-4o,在100個視覺謎題中也僅成功解決了21個。其他知名AI模型如Claude、Gemini和LLaVA的表現更不盡如人意。這些模型在識別垂直和水平線條,或判斷螺旋方向等基礎視覺概念時都表現出明顯的困難。

研究人員發現,即使在提供多項選擇的情況下,AI模型的表現也僅有輕微提升。只有在嚴格限制可能答案數量的條件下,GPT-4和Claude的成功率才分別提升至68個和69個謎題。通過深入分析四個特定案例,研究團隊發現AI系統有時在達到"思考"和"推理"階段之前,就已經在基礎視覺感知層面出現了問題,但具體原因仍難以確定。

這項研究也引發了對AI系統評估標準的反思。研究團隊指出:"爲什麼視覺語言模型在已建立的基準測試中表現出色,卻在看似簡單的Bongard問題上遇到困難?這些基準測試在評估真實推理能力方面的意義究竟有多大?"這些問題的提出,暗示了當前AI評估體系可能需要重新設計,以更準確地衡量AI的視覺推理能力。

這項研究不僅展示了當前AI技術的侷限性,也爲未來AI視覺能力的發展指明瞭方向。它提醒我們,在爲AI的快速進步歡呼之際,也要清醒地認識到AI在基礎認知能力方面仍有待提升的空間。