微軟發佈 OmniParser V2.0：把屏幕截圖轉化成LLM可處理的結構化格式

微軟近日發佈了 OmniParser V2.0，這是一個旨在將用戶界面（UI）截圖轉換爲結構化格式的全新解析工具。OmniParser 能夠提高基於大型語言模型(LLM)的 UI 代理的性能，幫助用戶更好地理解和操作屏幕上的信息。

該工具的訓練數據集包括一個可交互圖標檢測數據集，該數據集從熱門網頁中精心挑選並自動註釋，以突出可點擊和可操作的區域。此外，還有一個圖標描述數據集，旨在將每個 UI 元素與其對應的功能相結合。

在 V2.0版本中，OmniParser 進行了顯著改進，更新後的數據集更大且更乾淨，圖標的描述與定位效果提高了60%。根據測試，該版本的平均延遲也大幅降低，在 A100設備上約爲0.6秒 / 幀，而在單個4090顯卡上爲0.8秒 / 幀。性能方面，OmniParser 在 ScreenSpot Pro 測試中獲得了39.6的平均準確率。

用戶只需使用 OmniTool 這一工具即可控制 Windows11虛擬機，OmniTool 與 OmniParser 結合使用，用戶還可以選擇適合的視覺模型。當前 OmniTool 支持多種大型語言模型，如 OpenAI 的多個版本、DeepSeek（R1）、Qwen(2.5VL)和 Anthropic Computer Use，方便用戶進行各種操作。

OmniParser 旨在將非結構化的截圖圖像轉換爲結構化的元素列表，包括可交互區域的位置和圖標的潛在功能描述。使用該工具的用戶需具備基本的分析能力和批判性思維，因爲雖然 OmniParser 能夠提取信息，最終的判斷仍需用戶自行做出。此工具可用於多種類型的截圖，包括 PC 和手機界面，適應性強。

不過，OmniParser 的侷限性也值得注意。該工具並不檢測輸入中的有害內容，因此用戶應當謹慎提供輸入，確保不含有害信息。同時，儘管 OmniParser 僅將截圖轉化爲文本，它仍可用於構建可操作的圖形用戶界面代理。開發者在使用 OmniParser 構建和運營代理時，需遵循安全標準和道德規範。

模型:https://huggingface.co/microsoft/OmniParser-v2.0

項目:https://github.com/microsoft/OmniParser/tree/master

劃重點:
🔍 OmniParser V2.0是一款智能解析工具，能將 UI 截圖轉換爲結構化信息，提升用戶操作體驗。
⚡ 新版本改進顯著，平均延遲減少至0.6秒 / 幀，準確率達39.6%。
🔐 使用時需注意輸入內容的安全性，開發者應遵循安全標準與倫理規範。

微軟發佈 OmniParser V2.0：把屏幕截圖轉化成LLM可處理的結構化格式

相關推薦

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度

谷歌 DeepMind 推出 Evo-Memory 基準與 ReMem 框架，推動 LLM 智能體的經驗重用

微軟發佈 OmniParser V2.0：把屏幕截圖轉化成LLM可處理的結構化格式

相關推薦

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度

​谷歌 DeepMind 推出 Evo-Memory 基準與 ReMem 框架，推動 LLM 智能體的經驗重用

谷歌 DeepMind 推出 Evo-Memory 基準與 ReMem 框架，推動 LLM 智能體的經驗重用