グーグルのDeepMindとKaggleは、近日、公開ベースラインテストプラットフォーム「Game Arena(ゲームアリーナ)」を大幅にアップグレードすることを発表しました。このアップグレードにより、「狼人殺(ウルフ・ゲーム)」と「ポーカー(Poker)」という2つの伝統的な戦略ゲームが正式に導入されました。この動きは、AIの性能評価が単なる論理演算(例えばチェス)から複雑な社会的推論や不確実性のある意思決定へと進化したことを示しています。

QQ20260204-095537.png

評価の次元:論理思考から社交的な偽装へ

DeepMindによると、従来のテストでは優れたモデル間のわずかな差を区別することが難しくなっています。新たに追加されたゲームは、AIの認知能力をさまざまな次元から極限までテストすることを目的としています:

  • 狼人殺: モデルのコミュニケーションスキルや言語説得力、そして嘘を識別・利用する社会的感覚能力を重視して評価されます。

  • ポーカー: 現実世界の複雑な意思決定を模倣し、不完全な情報とリスク管理に対処する際の戦略的能力をテストします。

  • チェス: 依然として純粋な論理的思考と長期的な計画能力を測る基本的な指標として機能し続けます。

戦力ランキング:Gemini3シリーズが圧倒的優勢

最新のEloランクに基づき、グーグルの新世代モデルであるGemini3ProGemini3Flashは、すべてのチェス類および戦略ゲームで第一グループに位置しています。驚いたことに、軽量版のFlashモデルは、某些需要迅速反応和即时反馈の博弈場面では特に優れたパフォーマンスを発揮しており、Proモデルは深層的な計画においてもリードを維持しています。

セキュリティ研究における二重の価値

パフォーマンスの展示だけでなく、DeepMindは「狼人殺」のベンチマークテストがAIセキュリティ分野での潜在的な価値にも注目しています。このシナリオは現実世界の操作行為の検出を模倣し、制御された環境で悪意ある誘導を識別する能力を学ばせることを目的としています。グーグルDeepMindのCEOであるDemis Hassabis氏は、モデルの能力が指数関数的に増加する中、業界にはこのようなより挑戦的で現実に近い「ストレス試験」が急務であると述べました。

現在、Game ArenaはKaggleプラットフォーム上で公開されており、開発者はこれらの高圧的な社交的対決における世界トップレベルのモデルのパフォーマンスをリアルタイムで観察できます。