在專業環境中,圖形用戶界面(GUI)代理面臨着三大關鍵挑戰。首先,專業應用程序的複雜性遠高於一般軟件,要求對複雜佈局有深入理解;其次,專業工具通常具備更高的分辨率,導致目標尺寸較小,從而降低了定位準確性;最後,工作流程往往依賴於額外工具和文檔,增加了操作的複雜性。這些挑戰凸顯了開發更先進的基準和解決方案以提升 GUI 代理在這些嚴苛場景中的性能的必要性。

目前的 GUI 定位模型和基準無法滿足專業環境的要求。例如,ScreenSpot 等工具設計主要用於低分辨率任務,缺乏能夠準確模擬現實場景的多樣性。而 OS-Atlas 和 UGround 等模型在計算效率上表現不佳,尤其在目標較小或界面圖標豐富的情況下,常常出現失效。此外,缺乏多語言支持也限制了這些模型在全球工作流程中的應用。這些不足之處進一步突顯了需要更全面和現實的基準,以推動這一領域的發展。
爲了解決這些問題,新加坡國立大學、華東師範大學和香港浸會大學的研究團隊推出了 ScreenSpot-Pro,這是一個專爲高分辨率專業環境量身定製的新基準。該基準擁有來自23個行業的1,581個任務數據集,包括開發、創意工具、CAD、科學平臺和辦公套件。它採用高分辨率的全屏視覺效果,並通過專家註釋確保準確性和現實性。ScreenSpot-Pro 還提供了包括英語和中文在內的多語言指導,以擴展評估範圍。與以往不同的是,ScreenSpot-Pro 文檔化了實際工作流程,確保高質量註釋的產生,從而爲 GUI 定位模型的全面評估和開發提供了有效工具。
該數據集捕捉了真實且富有挑戰性的場景,基於高分辨率圖像,其目標區域平均僅佔總屏幕的0.07%,顯示出 GUI 元素的細微和小型化。數據由在相關應用中具有豐富經驗的專業用戶收集,使用專門工具確保註釋的準確性。此外,該數據集還支持多語言功能,便於測試雙語能力,幷包含多個工作流程,以捕捉專業任務的細微差別。這些特點使其特別有利於評估和提升 GUI 代理的準確性和靈活性。
利用 ScreenSpot-Pro 對現有 GUI 定位模型的分析顯示出其在處理高分辨率專業環境中的能力嚴重不足。OS-Atlas-7B 的準確率最高僅爲18.9%。然而,採用迭代方法的 ReGround 通過多步驟方法的微調,提高了性能,達到了40.2% 的準確率。小型組件如圖標的識別表現出顯著困難,而雙語任務進一步凸顯了模型的侷限性。這些發現強調了改進技術以增強在複雜 GUI 環境中的上下文理解和適應能力的必要性。
ScreenSpot-Pro 爲高分辨率專業環境中 GUI 代理的評估設定了一個變革性的基準。它解決了複雜工作流程中的具體挑戰,提供了多樣化和精確的數據集,以指導 GUI 定位的創新。這一貢獻將爲更智能、高效的代理奠定基礎,從而支持專業任務的無縫執行,顯著提升各行業的生產力和創新力。
論文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
數據|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
劃重點:
🌟 ** 專業應用的複雜性 **:GUI 代理需處理高複雜度和高分辨率的專業軟件界面。
🛠️ **ScreenSpot-Pro 數據集 **:包含1,581個任務,覆蓋23個專業應用,支持多語言評估。
📈 ** 模型性能提升 **:通過多步驟微調,提升 GUI 定位模型在高分辨率環境中的準確率。
