微軟近日推出了其 Windows 操作大模型 OmniParser 的升級版本——OmniParser-v2.0。該模型能夠識別桌面和窗口元素,並與之進行交互,標誌着 AI Agent 技術在實現完全自動使用電腦的方向上又邁進了一步。
OmniParser-v2.0 的關鍵能力在於其對桌面環境的感知和交互能力。這意味着,通過與該模型的結合,AI Agent 不僅能理解用戶的指令,還能直接在 Windows 操作系統層面上執行操作,例如打開特定窗口、定位並點擊按鈕、輸入文本等。
值得注意的是,OmniParser-v2.0 可以接入如 DeepSeek-R1等其他模型。這種可擴展性爲構建更強大、更靈活的 AI Agent 提供了可能。
業內人士指出,隨着 OmniParser-v2.0 等工具的出現,AI Agent 的下游工具鏈正在日益完善。從操作瀏覽器到操作操作系統,AI Agent 的能力範圍不斷擴大,預示着未來 AI 在自動化辦公、個人助理等領域將發揮更大的作用。 我們正逐步接近一個由 AI 驅動的、更加智能和高效的計算時代。
地址:https://huggingface.co/microsoft/OmniParser-v2.0