在電腦智能體(Computer Use Agent)領域,最近有一個激動人心的進展。上海交通大學與 SII 的研究團隊,藉助僅312條人類標註的操作軌跡,成功訓練出了名爲 PC Agent-E 的新一代開源電腦智能體,其性能提升高達241%,超越了著名的 Claude3.7Sonnet,成爲 Windows 系統上的新一代最優模型。
自從 Anthropic 推出 Claude Computer Use 以來,電腦智能體的發展一直備受關注。OpenAI 也相繼發佈了 Operator,通過強化學習技術提升電腦智能體的能力。然而,業界普遍認爲,要想達到這樣的水平,需要大量的軌跡數據和複雜的強化學習算法。面對這種觀點,上海交通大學和 SII 的團隊用實際成果反駁了這一說法:只需少量的高質量數據,便能激發智能體的潛力。

這項研究的關鍵在於如何有效利用人類的操作軌跡。研究團隊僅用了兩名研究者一天的時間,通過開發的工具 PC Tracker,收集到了312條真實的操作軌跡。這些軌跡包含任務描述、屏幕截圖以及詳細的鍵盤和鼠標操作記錄,確保了數據的準確性。在這之後,研究團隊還爲這些軌跡進行了 “思維鏈補全”,即爲每個動作提供了背後的思考過程,使得數據更加完整。
爲了進一步提升模型的性能,團隊引入了 “軌跡增強” 技術。通過使用 Claude3.7Sonnet,研究人員爲每一步的操作合成了多個合理的動作決策,這樣不僅增加了軌跡數據的多樣性,也顯著提高了訓練的效率。最終,PC Agent-E 在 WindowsAgentArena-V2的測試中表現出色,超越了 Claude3.7Sonnet 的 “extended thinking” 模式。

這項研究的成果顯示,使用少量高質量的數據即可實現強大的智能體訓練,不再需要海量的標註數據。這爲未來更智能的數字代理的發展指明瞭方向,團隊也認爲,通過提高軌跡數據的質量,可以有效降低數據需求,推動智能體的自主性提升。
論文地址:https://arxiv.org/abs/2505.13909
代碼地址:https://github.com/GAIR-NLP/PC-Agent-E
模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
數據地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E
