グーグルのDeepMindは最近、複雑な3Dゲーム世界において汎用的なエージェントの性能をテストするためのSIMA2をリリースしました。SIMA2(拡張可能な指示可能なマルチワールドエージェント)は、以前のバージョンに比べてアップグレードされ、Geminiモデルを採用しており、目標をよりよく理解し、計画を説明し、自己学習を通じて異なる環境で継続的に進化できるようになりました。

SIMA2の前身であるSIMA1は2024年に登場し、当時は画像のレンダリングと仮想キーボード・マウスを使用して制御し、600以上の言語指令を学び、約31%のタスク達成率を達成しましたが、人間プレイヤーの達成率は約71%でした。一方、SIMA2は同じインターフェースを維持しながら、Gemini2.5Flash Liteをコア推論エンジンとして使用しています。これにより、SIMA2は単なる命令実行者ではなく、プレイヤーと対話するゲームパートナーとなったのです。

SIMA2のアーキテクチャではGeminiがコア部分として統合されており、視覚的観察とユーザーの指示を受け取り、上位目標を導き出し、それに応じた操作を生成します。この新しいトレーニングモードにより、エージェントは自分の意図を説明し、現在の目標に関する質問に答えることができ、環境に対する推論プロセスを示すことができます。DeepMindの評価によると、SIMA2のタスク達成率は62%まで向上し、人間プレイヤーのレベルに近づいています。
SIMA2は指示の受け入れ経路を拡張しており、テキストの指示だけでなく、音声、グラフィック、さらには絵文字も処理できます。デモンストレーションの一つでは、ユーザーが「トマトのように赤い色の家」を見つけるように要求したところ、SIMA2は「完熟したトマトは赤い」と推論し、目標をスムーズに見つけることができました。
自己改善機能もSIMA2の大きな特徴です。初期段階では人間のゲームのデモを使用し、その後、エージェントは新しくゲームに入り、完全に自分の経験だけで学習します。Geminiモデルはエージェントに新しいタスクを作成し、評価を行うことで、後続のバージョンは以前失敗したタスクでも成功でき、追加の人間のデモなしで動作できるようになったのです。
最後に、DeepMindはSIMA2とGenie3を組み合わせ、単一の画像またはテキストのヒントからインタラクティブな3D環境を生成し、エージェントが新しい環境で物を認識し、指定されたタスクを遂行する方法を示しました。これは、汎用的なエージェントが現実世界のロボットへと進化する重要な一歩を示しています。
公式ブログ:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
ポイント:
🌟 SIMA2はGemini2.5Flash Liteモデルを統合し、エージェントに高い推論力と計画能力を備えさせています。
📈 SIMA2のタスク達成率は62%に向上し、人間プレイヤーのレベルに近づいており、顕著なパフォーマンスの向上を示しています。
🛠️ 自己改善メカニズムとGenie3の環境生成を通じて、SIMA2は新たなシナリオでの適応力と汎用性を示しています。
