針對最近備受關注的視覺語言模型GPT-4V,有研究者構建了一個新基準測試HallusionBench用於檢驗其圖像推理能力。結果發現,GPT-4V等模型在HallusionBench中表現不佳,易受自身參數化記憶的影響產生語言幻覺,答案錯誤率高達90%。此外,在幾何等視覺問題上GPT-4V的表現也不盡如人意,反映出其當前的視覺能力還非常有限。簡單的圖像操作就可以輕易地誤導GPT-4V,暴露出其脆弱性。相比之下,LLaVA-1.5的知識儲備則不如GPT-4V豐富,存在一些常識性錯誤。本研究揭示了當前視覺語言模型在圖像推理方面的侷限,爲未來的改進提供參考。