昆仑万維と北京智源人工知能研究院、シンガポール南洋理工大学、北京大学などの機関が共同で、Cradleという汎用コンピュータ制御フレームワークを発表しました。このAIフレームワークにより、インテリジェントエージェント(AI Agent)は特別な訓練なしに、人間のようにキーボードとマウスを操作し、任意のオープンソースおよびクローズドソースソフトウェアと対話することができます。内部APIに依存しません。Cradleは、様々な商業ゲームと様々なソフトウェアアプリケーションを同時に操作できる最初のAIフレームワークであり、論文、プロジェクト、コードはすべてオープンソース化されています。

Cradleは、『レッド・デッド・リデンプション2』で40分間にわたるメインミッションを完了したり、『スターデューバレー』で農場の掃除や買い物を行ったり、『シムシティ』で人口1000人の町を建設したり、『ショップ人生2』で顧客と値切り交渉したりするなど、複数のゲームで優れた能力を示しました。また、Chrome、Outlook、Feishuなどの日常的なソフトウェアでも使用でき、画像編集や動画編集などの操作も可能です。まさに万能なAI Agentと言えるでしょう。

微信截图_20240704142116.png

Cradleは、情報収集、自己省察、タスク推論、スキル管理、行動計画、メモリモジュールの6つの部分で構成されています。生の入出力の合理的なカプセル化と抽象化により、コンピュータとのインタラクションを実現します。画面に表示されるビデオ画像を入力として使用し、テキストと視覚情報を抽出して意思決定を行い、キーボードとマウスを制御する信号を出力します。Cradleの意思決定推論モジュールは、ソフトウェアと自発的に対話してタスクを完了し、過去を反省し、現在をまとめ、未来を計画する方法で操作します。

さらに、Cradleはゲームやソフトウェアアプリケーションでのパフォーマンスが汎用性を証明しており、様々なスタイルや操作方法の異なるゲームで複雑なタスクを完了し、論文のダウンロード、メールの送信、画像編集、動画編集など、一般的なソフトウェアで様々なタスクを実行できます。Cradleは、挑戦的なベンチマークOSWorldでも、真値ラベルを使用するベースライン手法を上回りました。

Cradleの発表は、汎用コンピュータ制御インテリジェントエージェント(GCC Agents)の構築に新たな可能性をもたらし、統一された入出力インターフェースの発展を促進し、将来のインテリジェントエージェントが異なる環境でインタラクションし、自己向上するための基盤を築き、汎用人工知能(AGI)の実現に向けて重要な一歩を踏み出しました。

プロジェクトページ:https://baai-agents.github.io/Cradle

コードリンク:https://github.com/BAAI-Agents/Cradle