最近注目を集めている視覚言語モデルGPT-4Vについて、その画像推論能力を検証するための新たなベンチマークテスト「HallusionBench」が開発されました。
テストの結果、GPT-4VなどのモデルはHallusionBenchで良好な成績を残せず、パラメータ化されたメモリの影響を受けやすく、言語的幻覚を起こしやすいことが分かりました。誤答率はなんと90%にも上ります。
さらに、幾何学的な問題など、視覚的な問題においてもGPT-4Vの成績は芳しくなく、現在の視覚能力には大きな限界があることが示唆されました。単純な画像操作でもGPT-4Vを容易に誤らせることができ、その脆弱性が露呈しています。
一方、LLaVA-1.5はGPT-4Vほど知識が豊富ではなく、いくつかの常識的な誤りを犯すことが分かりました。
本研究は、現在の視覚言語モデルが画像推論において抱える限界を明らかにし、今後のモデル改善のための重要な示唆を与えてくれます。