上海の人工知能研究所司南 OpenCompass チームと魔搭 ModelScope は最近、大規模モデル評価プラットフォーム Compass Arena の重要なアップデートを発表し、新しいマルチモーダル大規模モデル競技セクション Compass Multi-Modal Arena を導入しました。この新セクションは、ユーザーが様々な主流マルチモーダル大規模モデルの効果を試して比較できるプラットフォームを提供し、ユーザー自身のニーズに最適なモデルを見つけるお手伝いをします。

微信截图_20240813080725.png

Compass Multi-Modal Arena の公式サイトと ModelScope ページは一般公開されており、ユーザーフレンドリーなインターフェースを提供しています。ユーザーは画像をアップロードして質問を入力すると、システムは2つの匿名のマルチモーダル大規模モデルに、入力内容に基づいて回答を生成させます。ユーザーは生成された内容の質に基づいて主観的な評価を行い、より優れたパフォーマンスを示したモデルを選択します。評価が完了すると、各モデルの名前が表示されます。

微信截图_20240813080734.png

このプラットフォームには、画像のアップロードが困難な場合に便利な特色のある問題集も内蔵されています。問題集は、ミームの理解、美術品の鑑賞、写真作品鑑賞など、主観的な視覚的質問応答タスクに重点を置いています。この設計は、マルチモーダル大規模モデルの主観的なタスクにおけるパフォーマンスとユーザーエクスペリエンスを評価することを目的としています。

Compass Multi-Modal Arena 公式サイト

https://opencompass.org.cn/arena?type=multimodal

ModelScope ページ:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace ページ

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass マルチモーダル評価ツールオープンソースリンク:

https://github.com/open-compass/VLMEvalKit