複雑なコンピュータゲームである『Factorio』は、建造と資源管理に焦点を当てており、最近、人工知能の能力を評価するための新たなツールとして研究者らに注目されています。このゲームは、複数の資源と生産ラインを管理しながら、複雑なシステムの計画と構築における言語モデルの能力をテストすることができます。
そのため、研究チームは「Factorio学習環境(FLE)」というシステムを開発しました。このシステムには、2種類の異なるテストモードが用意されています。「実験モード」には、具体的な目標と限られた資源が設定された24個の構造化された課題が含まれており、単純な2台の機械の建造から、複雑なほぼ100台の機械の工場まで、様々な課題が用意されています。「開放モード」では、AIエージェントはプログラムで生成されたマップを探検し、可能な限り大きな工場を建造することが唯一の目標となります。
エージェントはPython APIを通じて『Factorio』とやり取りし、様々な操作を実行し、ゲームの状態を確認するためのコードを生成することができます。このシステムは、言語モデルによるプログラムの合成能力と複雑なシステムの処理能力をテストすることを目的としています。APIを使用することで、エージェントはコンポーネントの配置と接続、資源の管理、生産進捗の監視などの機能を実行できます。
エージェントのパフォーマンスを評価するために、研究者らは2つの主要な指標を使用しました。「生産スコア」は総生産量を計算するもので、生産ラインの複雑さが増すにつれて指数関数的に増加します。「マイルストーン」は、新しいアイテムの作成や技術の研究などの重要な成果を追跡します。ゲームの経済シミュレーションでは、資源の希少性、市場価格、生産効率などの要素が考慮されています。
Anthropicの科学者を含む研究チームは、FLE環境下で、Claude3.5Sonnet、GPT-4oとそのミニ版、DeepSeek-V3、Gemini2.0Flash、Llama-3.3-70B-Instructなど、6つの主要な言語モデルのパフォーマンスを評価しました。このテストには、大規模推論モデル(LRM)は含まれていませんでしたが、以前のベンチマークテストでは、o1のようなモデルは、それ自身の限界はあるものの、計画能力において優れたパフォーマンスを示していることが示されています。
テストの結果、評価に参加した言語モデルは、空間推論、長期計画、エラー修正において大きな課題に直面していることが示されました。工場を建設する際に、AIエージェントは機械の効率的な配置と接続に苦労し、最適ではない配置と生産のボトルネックを引き起こしました。戦略的思考も課題となり、モデルは一般的に長期計画よりも短期目標を優先する傾向がありました。さらに、基本的なトラブルシューティングは処理できますが、より複雑な問題に直面すると、非効率的なデバッグループに陥ることが多かったです。
テストされたモデルの中で、Claude3.5Sonnetが最も優れたパフォーマンスを示しましたが、それでもすべての課題を克服できたわけではありません。実験モードでは、Claudeは24個のタスクのうち15個を成功裏に完了しましたが、他のモデルは最大でも10個しか完了しませんでした。開放テストでは、Claudeの生産スコアは2456点に達し、GPT-4oが1789点でそれに続きました。Claudeは、戦略的な製造と研究方法を通じて、基本的な製品から複雑な生産プロセスへと迅速に移行するなど、『Factorio』の複雑なゲームプレイを示しました。特に、電動ドリル技術の向上により、鉄板の生産速度が大幅に向上しました。
研究者らは、FLEのオープンで拡張可能な特性により、将来、より強力な言語モデルをテストする際に重要な価値を持つと考えています。彼らは、より良い評価の背景を提供するために、この環境を拡張してマルチエージェントシナリオと人間の性能基準を含めることを提案しています。この作業は、BALROGや間もなくリリースされるMCBenchなど、『Minecraft』を使用してモデルをテストするものを含む、ゲームベースのAIベンチマークテストの集合をさらに充実させるものです。
Factorio学習環境:https://top.aibase.com/tool/factorio-learning-environment
要点:
🌟 『Factorio』ゲームがAI能力評価の新たなツールとなり、言語モデルの複雑なシステム管理能力をテストします。
🛠️ Factorio学習環境(FLE)は実験モードと開放モードを提供し、AIが様々な条件下で課題に挑戦できます。
📊 テストの結果、Claude3.5Sonnetが最高の性能を示しましたが、長期計画と複雑な問題処理には依然として困難がありました。