大規模言語モデル評価プラットフォームCompass Arenaにマルチモーダル大規模言語モデル競技セクション追加

上海の人工知能研究所司南 OpenCompass チームと魔搭 ModelScope は最近、大規模モデル評価プラットフォーム Compass Arena の重要なアップデートを発表し、新しいマルチモーダル大規模モデル競技セクション Compass Multi-Modal Arena を導入しました。この新セクションは、ユーザーが様々な主流マルチモーダル大規模モデルの効果を試して比較できるプラットフォームを提供し、ユーザー自身のニーズに最適なモデルを見つけるお手伝いをします。

微信截图_20240813080725.png

Compass Multi-Modal Arena の公式サイトと ModelScope ページは一般公開されており、ユーザーフレンドリーなインターフェースを提供しています。ユーザーは画像をアップロードして質問を入力すると、システムは2つの匿名のマルチモーダル大規模モデルに、入力内容に基づいて回答を生成させます。ユーザーは生成された内容の質に基づいて主観的な評価を行い、より優れたパフォーマンスを示したモデルを選択します。評価が完了すると、各モデルの名前が表示されます。

微信截图_20240813080734.png

このプラットフォームには、画像のアップロードが困難な場合に便利な特色のある問題集も内蔵されています。問題集は、ミームの理解、美術品の鑑賞、写真作品鑑賞など、主観的な視覚的質問応答タスクに重点を置いています。この設計は、マルチモーダル大規模モデルの主観的なタスクにおけるパフォーマンスとユーザーエクスペリエンスを評価することを目的としています。

Compass Multi-Modal Arena 公式サイト

https://opencompass.org.cn/arena?type=multimodal

ModelScope ページ:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace ページ

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass マルチモーダル評価ツールオープンソースリンク:

https://github.com/open-compass/VLMEvalKit

大発表：中国で初の百万級ロボットデータセットがオープンソース化、具象知能がImageNetモーメントを迎える

智元机器人は上海人工知能研究所などの機関と協力し、AgiBot Worldデータセットを正式に発表しました。これは、現実世界のシーンに基づいた世界初の百万級ロボットデータセットです。GoogleのOpen X-Embodimentと比較して、長期的データ規模は10倍、シーンのカバー範囲は100倍に拡大し、データ品質は産業レベルの基準に達しています。具象知能分野のImageNetモーメントと称賛されているこのオープンソースプロジェクトは、驚くべきロボット能力を示しています。リビングでの生け花から、台所の料理、スーパーでのレジ業務まで、幅広いタスクをこなすことができます。

AI2、オープンソースのTülu3モデルを発表、GPT-4o miniと同等の性能

人工知能分野において、後訓練技術はモデル性能向上のための重要な手段になりつつあります。先日、アレン人工知能研究所（AI2）は、Tülu3シリーズモデルを発表しました。これは、GPT-4o-miniなどのクローズドソースモデルに匹敵する性能を持つ、完全にオープンソースの高度な言語モデルです。Tülu3には、モデルデータ、コード、トレーニングレシピに加え、評価フレームワークも含まれており、オープンソースモデルの後訓練技術の発展を促進することを目的としています。従来、事前学習のみのモデルは、実際的な用途のニーズを効果的に満たせないことが多く、問題となる可能性がありました。

AI画像生成会社、著作権侵害訴訟の進展　アーティストに有利な可能性

重要な著作権侵害訴訟において、裁判官は、著名なAI画像・動画生成会社に対する視覚アーティストの訴訟を継続し、証拠開示段階に移行することを認める判決を下しました。アーティストは、これらの会社がMidjourney、Runway、Stability AI、DeviantArtなどを含む、彼らの作品を許可なくAIモデルの訓練に使用したと主張しています。本件の焦点は、AI会社が「誘導的侵害」を構成するかどうかであり、裁判官は、申し立てが十分に強力であるとして、訴訟を徹底的に調査することを認めました。

AIモデルが進化！IncarnaMindで複数ドキュメントとのリアルタイムチャットと正確な情報検索を実現

IncarnaMindは、複数のドキュメントとのインタラクティブなチャットと正確な情報検索のために設計されたAIモデルです。革新的なスライディングウィンドウ分割技術を採用し、ドキュメントの内容とユーザーのニーズに応じて情報検索方法を動的に調整します。マルチホップクエリをサポートし、複数のドキュメントを同時に処理することで、従来の1回のクエリにつき1つのドキュメントのみに制限されるという制約を打破します。包括的なコンテキスト情報と詳細な情報の取得のバランスを取ることで、IncarnaMindはより効率的で正確な情報検索を実現します。GPTシリーズ、Clなど、様々な大規模言語モデルと互換性があります。

Microsoft Face Check顔認証技術が正式リリース企業のID認証セキュリティを強化

Microsoftは、企業向けに顔認証技術Face Checkを全面的に公開しました。より安全なID認証サービスを提供することを目的としています。ユーザーの携帯電話による自撮り写真と既に検証済みの身分証明写真とを照合することで、サイバー犯罪を効果的に防止し、安全でない認証方法に依存する攻撃経路を65％削減します。Face CheckはMicrosoft EntraデジタルIDサービスに統合されており、採用されている深層学習アルゴリズムはディープフェイクなどの欺瞞的手法を識別し、防御することでユーザーのプライバシーを保護します。企業は個別にサービスを購入でき、1回あたりの検証費用は0.25ドルです。

大規模言語モデル評価プラットフォームCompass Arenaにマルチモーダル大規模言語モデル競技セクション追加

関連推奨

大発表：中国で初の百万級ロボットデータセットがオープンソース化、具象知能がImageNetモーメントを迎える

AI2、オープンソースのTülu3モデルを発表、GPT-4o miniと同等の性能

AI画像生成会社、著作権侵害訴訟の進展 アーティストに有利な可能性

AIモデルが進化！IncarnaMindで複数ドキュメントとのリアルタイムチャットと正確な情報検索を実現

Microsoft Face Check顔認証技術が正式リリース 企業のID認証セキュリティを強化

AI画像生成会社、著作権侵害訴訟の進展　アーティストに有利な可能性

Microsoft Face Check顔認証技術が正式リリース企業のID認証セキュリティを強化