崑崙萬維與北京智源人工智能研究院、新加坡南洋理工大學、北京大學等機構聯合發佈了一款名爲Cradle的通用計算機控制框架。這一AI框架使智能體(AI Agent)能夠無需特別訓練,直接像人一樣控制鍵盤和鼠標,與任意開閉源軟件進行交互,不依賴任何內部API。Cradle是首個能夠同時玩轉多種商業遊戲和操作各類軟件應用的AI框架,其論文、項目和代碼均已開源。
Cradle展示了在多款遊戲中的卓越能力,包括在《荒野大鏢客2》中完成長達40分鐘的主線任務,在《星露穀物語》中清理農場和購物,在《城市天際線》中建造千人小鎮,在《當鋪人生2》中與客戶討價還價,以及在Chrome、Outlook、飛書等日常軟件中的應用能力。它還能進行修圖、剪輯視頻等操作,成爲一個全能的AI Agent。

Cradle由信息收集、自我反思、任務推斷、技能管理、行動規劃和記憶模塊六個部分組成,通過合理封裝和抽象原始輸入輸出,實現與電腦的交互。它使用屏幕顯示的視頻圖像作爲輸入,提取文本和視覺信息進行決策,並輸出控制鍵盤和鼠標的信號。Cradle的決策推理模塊能夠自發與軟件交互並完成任務,通過反思過去、總結現在和規劃未來的方式進行操作。
此外,Cradle在遊戲和軟件應用上的表現證明了其通用性,能夠在多種風格和操作方式不同的遊戲中完成複雜任務,在常用軟件中執行各項任務,如下載論文、發送郵件、修圖、剪輯視頻等。Cradle還在具有挑戰性的benchmark OSWorld上擊敗了使用真值標籤的基線方法。
Cradle的發佈爲構建通用計算機控制智能體(GCC Agents)提供了新的可能性,推動了統一輸入輸出接口的發展,爲未來智能體在不同環境中的交互和自我提升奠定了基礎,爲實現通用人工智能(AGI)邁出了重要一步。
項目主頁:https://baai-agents.github.io/Cradle
代碼鏈接:https://github.com/BAAI-Agents/Cradle
