視覺語言模型(VLMs)大家應該都聽說過,這些AI界的小能手不僅能讀懂文字,還能“看”懂圖片。但事實並非如此,今天,我們來扒一扒它們的“底褲”,看看它們是不是真的像我們人類一樣能“看”懂圖像。
首先,得給大家科普一下,VLMs是啥玩意兒。簡單來說,它們就是一些大型的語言模型,比如GPT-4o和Gemini-1.5Pro,它們在圖像和文本處理上表現得風生水起,甚至在很多視覺理解測試上都拿到了高分。但別被這些高分唬住,我們今天要看看它們是不是真的那麼牛。
研究人員們設計了一套叫做BlindTest的測試,裏面有7個任務,對人類來說簡直簡單到不行。比如,判斷兩個圓是否重疊,兩條線是否相交,或者數數奧運標誌裏有幾個圓圈。這些任務聽起來是不是覺得幼兒園小朋友都能輕鬆搞定?但告訴你,這些VLMs的表現可沒那麼神。
結果讓人大跌眼鏡,這些所謂的先進模型在BlindTest上的平均準確率只有56.20%,最好的Sonnet-3.5也就73.77%的準確率。這就好比一個號稱能考清華北大的學霸,結果連小學數學題都做不對。

爲啥會這樣呢?研究人員分析,可能是因爲VLMs在處理圖像時,就像是個近視眼,看不清楚細節。它們雖然能大致看出圖像的總體趨勢,但一旦涉及到精確的空間信息,比如兩個圖形是否相交,或者重疊,它們就懵了。
舉個例子,研究人員讓VLMs判斷兩個圓是否重疊,結果發現,即使兩個圓大得跟西瓜似的,這些模型還是不能100%準確地回答出來。還有,當讓它們數數奧運標誌裏的圓圈數,它們的表現也是一言難盡。

更有意思的是,研究人員還發現,這些VLMs在數數時,似乎對數字5有一種特別的偏好。比如,當奧運標誌裏的圓圈數超過5個時,它們就傾向於回答“5”,這可能是因爲奧運標誌裏有5個圓圈,它們對這個數字特別熟悉。

好了,說了這麼多,小夥伴們是不是對這些看似高大上的VLMs有了新的認識?其實,它們在視覺理解上還有很多侷限,遠沒有達到我們人類的水平。所以,下次再聽到有人說AI能完全替代人類,你就可以呵呵一笑了。
論文地址:https://arxiv.org/pdf/2407.06581
項目頁:https://vlmsareblind.github.io/
