微軟近日發佈了 OmniParser V2.0,這是一個旨在將用戶界面(UI)截圖轉換爲結構化格式的全新解析工具。OmniParser 能夠提高基於大型語言模型(LLM)的 UI 代理的性能,幫助用戶更好地理解和操作屏幕上的信息。
該工具的訓練數據集包括一個可交互圖標檢測數據集,該數據集從熱門網頁中精心挑選並自動註釋,以突出可點擊和可操作的區域。此外,還有一個圖標描述數據集,旨在將每個 UI 元素與其對應的功能相結合。

在 V2.0版本中,OmniParser 進行了顯著改進,更新後的數據集更大且更乾淨,圖標的描述與定位效果提高了60%。根據測試,該版本的平均延遲也大幅降低,在 A100設備上約爲0.6秒 / 幀,而在單個4090顯卡上爲0.8秒 / 幀。性能方面,OmniParser 在 ScreenSpot Pro 測試中獲得了39.6的平均準確率。
用戶只需使用 OmniTool 這一工具即可控制 Windows11虛擬機,OmniTool 與 OmniParser 結合使用,用戶還可以選擇適合的視覺模型。當前 OmniTool 支持多種大型語言模型,如 OpenAI 的多個版本、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic Computer Use,方便用戶進行各種操作。
OmniParser 旨在將非結構化的截圖圖像轉換爲結構化的元素列表,包括可交互區域的位置和圖標的潛在功能描述。使用該工具的用戶需具備基本的分析能力和批判性思維,因爲雖然 OmniParser 能夠提取信息,最終的判斷仍需用戶自行做出。此工具可用於多種類型的截圖,包括 PC 和手機界面,適應性強。
不過,OmniParser 的侷限性也值得注意。該工具並不檢測輸入中的有害內容,因此用戶應當謹慎提供輸入,確保不含有害信息。同時,儘管 OmniParser 僅將截圖轉化爲文本,它仍可用於構建可操作的圖形用戶界面代理。開發者在使用 OmniParser 構建和運營代理時,需遵循安全標準和道德規範。
模型:https://huggingface.co/microsoft/OmniParser-v2.0
項目:https://github.com/microsoft/OmniParser/tree/master
劃重點:
🔍 OmniParser V2.0是一款智能解析工具,能將 UI 截圖轉換爲結構化信息,提升用戶操作體驗。
⚡ 新版本改進顯著,平均延遲減少至0.6秒 / 幀,準確率達39.6%。
🔐 使用時需注意輸入內容的安全性,開發者應遵循安全標準與倫理規範。
