生成AIは急速に発展していますが、その性能を包括的に評価することは依然として困難です。様々なモデルが登場し、その効果はますます驚異的になっています。しかし、問題があります。これらのテキストから画像を生成するモデルの効果をどのように評価すれば良いのでしょうか?

従来の評価方法は、人間の目で判断する主観的な方法か、CLIPScoreなどの単純な指標を使用する方法です。しかし、これらの指標は、オブジェクト間の関係や論理的推論など、複雑なテキストプロンプトの細部を捉えることができません。そのため、多くのテキストから画像を生成するモデルの評価結果が不正確になり、生成された画像がプロンプトと全く関係ないのに高得点を得るといった滑稽な事態が発生することがあります。

image.png

この問題を解決するために、カーネギーメロン大学とMetaの研究者たちは最近、新しいテキストから画像を生成するモデルの評価方法であるVQAScoreを共同で発表しました。この方法の中心的な考え方は、視覚的質問応答(VQA)モデルを使用して、テキストから画像を生成するモデルを評価することです。

image.png

具体的には、VQAScoreはまず、テキストプロンプトを「この画像には猫がネズミを追いかけている様子がありますか?」のような簡単な質問に変換し、生成された画像とこの質問をVQAモデルに入力します。VQAモデルは画像の内容に基づいて質問の答えが「はい」か「いいえ」かを判断し、VQAScoreはVQAモデルが「はい」と判断する確率に基づいて、テキストから画像を生成するモデルを評価します。

image.png

この方法は一見単純ですが、驚くほど効果があります。研究者たちは、8つの異なるテキストから画像を生成するモデルの評価基準でVQAScoreをテストした結果、VQAScoreの正確性と信頼性は従来の評価方法をはるかに上回り、GPT-4Vなどの超大型モデルを使用する手法と匹敵する結果を得ることができました。

さらに素晴らしいことに、VQAScoreはテキストから画像を生成するモデルだけでなく、テキストから動画や3Dモデルを生成するモデルの評価にも使用できます。これは、VQAScoreの中核がVQAモデルであり、VQAモデル自体は様々な種類の視覚コンテンツを処理できるためです。

image.png

テキストから画像を生成する分野の進歩をさらに促進するために、研究者たちは新しいテキストから画像を生成するモデルの評価基準であるGenAI-Benchも作成しました。この基準には、比較、計数、論理的推論など、様々な視覚言語推論能力を網羅した1600個の複雑なテキストプロンプトが含まれています。研究者たちはまた、異なるテキストから画像を生成するモデルの効果を評価するために、15000を超える手動による注釈も収集しました。

総じて、VQAScoreとGenAI-Benchの登場は、テキストから画像を生成する分野に新たな活気をもたらしました。VQAScoreはより正確で信頼性の高い評価方法を提供し、研究者たちが異なるモデルの長所と短所をより適切に評価するのに役立ちます。GenAI-Benchは、より包括的で挑戦的な評価基準を提供し、テキストから画像を生成するモデルをよりスマートで人間的な方向へ発展させることができます。

もちろん、VQAScoreにもいくつかの限界があります。現在のVQAScoreは主にオープンソースのVQAモデルに依存していますが、これらのモデルの性能はGPT-4Vなどのクローズドソースモデルには及びません。将来的には、VQAモデルの進歩に伴い、VQAScoreの性能もさらに向上するでしょう。

プロジェクトアドレス:https://linzhiqiu.github.io/papers/vqascore/