最近有研究發現,GPT-4在一項視覺識別挑戰任務中表現不佳,原因可能是該任務中的圖片在訓練集中過於常見,GPT-4是利用記憶而不是真正的視覺識別能力來解答的。這說明了即使大模型在某些任務中表現突出,也需要謹慎看待,不能因爲在訓練集上的成功就高估模型的泛化能力。繼續提升模型的泛化性和對抗樣本的魯棒性是當前的重點研究方向之一。同時也需要警惕只在訓練集上測試模型的問題,要在更廣泛的樣本上考察模型的泛化能力,才能更好地評估模型性能。