最近,香港大學的 XLANG 實驗室與月之暗面、斯坦福大學等多家機構共同開源了一個名爲 OpenCUA 的全新框架。這個項目的目標是幫助開發者輕鬆構建和擴展計算機使用智能體(CUA),讓每個人都能擁有屬於自己的電腦助手。

OpenCUA 框架的推出,標誌着計算機使用智能體的又一次飛躍。它不僅提供了一套無縫的註釋基礎設施,用於捕捉人類在電腦上使用的演示,還集成了一個名爲 AgentNet 的大規模計算機使用任務數據集。該數據集覆蓋了超過200個應用程序和網站,以及跨越三個主要操作系統,給開發者提供了豐富的數據支持。

image.png

除此之外,OpenCUA 還具備一套可擴展的工作流程,能夠將演示轉換爲 “狀態 - 動作” 對,推動長鏈推理能力的反思。這意味着,開發者可以根據自身需求,輕鬆構建個性化的智能助手,幫助用戶更高效地完成工作。

項目的負責人餘濤教授表示,OpenCUA 通過開放完整的數據、工具和模型,旨在使 “人人都能打造自己的專屬電腦智能體”。該框架在多個關鍵基準上表現出色,甚至超越了目前最先進的 GPT-4o,成爲最強大的開源 CUA 解決方案。

image.png

隨着 OpenCUA 的推出,計算機智能體的應用將更爲廣泛和便捷。開發者們不僅可以根據自身需求進行定製,還能夠藉助該框架提升用戶的計算機使用體驗。值得注意的是,這一項目得到了多所知名大學及企業的參與,顯示了科技界在智能體研究領域的合作與共贏。

OpenCUA 的開源爲未來的智能助手開發提供了全新的可能性,讓我們期待科技將如何進一步提升我們的工作和生活效率。

項目地址:https://opencua.xlang.ai/

論文地址:https://arxiv.org/pdf/2508.09123