ScreenSpot-Pro：專爲高分辨率環境設計的多模態 LLM 基準工具！

在專業環境中，圖形用戶界面（GUI）代理面臨着三大關鍵挑戰。首先，專業應用程序的複雜性遠高於一般軟件，要求對複雜佈局有深入理解;其次，專業工具通常具備更高的分辨率，導致目標尺寸較小，從而降低了定位準確性;最後，工作流程往往依賴於額外工具和文檔，增加了操作的複雜性。這些挑戰凸顯了開發更先進的基準和解決方案以提升 GUI 代理在這些嚴苛場景中的性能的必要性。

目前的 GUI 定位模型和基準無法滿足專業環境的要求。例如，ScreenSpot 等工具設計主要用於低分辨率任務，缺乏能夠準確模擬現實場景的多樣性。而 OS-Atlas 和 UGround 等模型在計算效率上表現不佳，尤其在目標較小或界面圖標豐富的情況下，常常出現失效。此外，缺乏多語言支持也限制了這些模型在全球工作流程中的應用。這些不足之處進一步突顯了需要更全面和現實的基準，以推動這一領域的發展。

爲了解決這些問題，新加坡國立大學、華東師範大學和香港浸會大學的研究團隊推出了 ScreenSpot-Pro，這是一個專爲高分辨率專業環境量身定製的新基準。該基準擁有來自23個行業的1，581個任務數據集，包括開發、創意工具、CAD、科學平臺和辦公套件。它採用高分辨率的全屏視覺效果，並通過專家註釋確保準確性和現實性。ScreenSpot-Pro 還提供了包括英語和中文在內的多語言指導，以擴展評估範圍。與以往不同的是，ScreenSpot-Pro 文檔化了實際工作流程，確保高質量註釋的產生，從而爲 GUI 定位模型的全面評估和開發提供了有效工具。

該數據集捕捉了真實且富有挑戰性的場景，基於高分辨率圖像，其目標區域平均僅佔總屏幕的0.07%，顯示出 GUI 元素的細微和小型化。數據由在相關應用中具有豐富經驗的專業用戶收集，使用專門工具確保註釋的準確性。此外，該數據集還支持多語言功能，便於測試雙語能力，幷包含多個工作流程，以捕捉專業任務的細微差別。這些特點使其特別有利於評估和提升 GUI 代理的準確性和靈活性。

利用 ScreenSpot-Pro 對現有 GUI 定位模型的分析顯示出其在處理高分辨率專業環境中的能力嚴重不足。OS-Atlas-7B 的準確率最高僅爲18.9%。然而，採用迭代方法的 ReGround 通過多步驟方法的微調，提高了性能，達到了40.2% 的準確率。小型組件如圖標的識別表現出顯著困難，而雙語任務進一步凸顯了模型的侷限性。這些發現強調了改進技術以增強在複雜 GUI 環境中的上下文理解和適應能力的必要性。

ScreenSpot-Pro 爲高分辨率專業環境中 GUI 代理的評估設定了一個變革性的基準。它解決了複雜工作流程中的具體挑戰，提供了多樣化和精確的數據集，以指導 GUI 定位的創新。這一貢獻將爲更智能、高效的代理奠定基礎，從而支持專業任務的無縫執行，顯著提升各行業的生產力和創新力。

論文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

數據|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro

劃重點:
🌟 ** 專業應用的複雜性 **:GUI 代理需處理高複雜度和高分辨率的專業軟件界面。
🛠️ **ScreenSpot-Pro 數據集 **:包含1，581個任務，覆蓋23個專業應用，支持多語言評估。
📈 ** 模型性能提升 **:通過多步驟微調，提升 GUI 定位模型在高分辨率環境中的準確率。

小米大模型團隊雙雙入選國際頂級AI會議，功能已在小愛實裝

小米公司近日發佈消息，令人振奮的好消息傳來:小米大模型團隊的兩篇論文成功入選2025年北美計算語言學協會（NAACL）會議，並被列爲主會長文。這一成就不僅顯示了小米在人工智能領域的深厚積累，也標誌着其技術應用的快速發展。這兩篇論文分別聚焦於圖形用戶界面（GUI）代理和機器翻譯方向。小米在 GUI 代理方面的研究，將手機控制任務細分爲頁面到達和頁面操作兩個子任務，使得智能代理能夠更加專注於整體任務的完成能力，而不僅僅是追求每一步的最優解。這一方法提升了智能

Claude支持像人一樣操控計算機功能在研究中顯示出優勢和侷限性

自從 Anthropic 於十月推出 Claude 的 “計算機使用” 功能後，AI 智能體的能力引起了廣泛關注。這一功能使得 Claude 成爲首個能夠通過與人類相同的圖形用戶界面（GUI）進行交互的前沿模型。Claude 通過訪問桌面屏幕截圖，並通過鍵盤和鼠標操作來完成任務，這爲用戶提供了一種無需 API 接口就能自動化操作的便利方式。在一項由新加坡國立大學 Show Lab 進行的研究中，研究人員對 Claude 進行了多項任務的測試，包括網絡搜索、工作流程完成、辦公室生產力和視頻遊戲等。這些任務考察了 Claude

微軟推新模型OmniParser：讓GPT-4V秒懂屏幕截圖內容，指哪懂哪

還記得那個號稱“看圖說話”神器GPT-4V嗎?它能理解圖片內容，還能根據圖片執行任務，簡直是懶人福音!但它有個致命弱點:眼神不太好!想象一下，你讓GPT-4V幫你點個按鈕，它卻像個“屏幕瞎子”一樣，到處亂點，是不是很抓狂?今天就給大家介紹一個能讓GPT-4V眼神變好的神器——OmniParser!這是微軟發佈的全新模型，旨在解決圖形用戶界面（GUI）自動交互的難題。OmniParser是幹啥的?簡單來說，OmniParser就是個“屏幕翻譯官”，它能把屏幕截圖解析成GPT-4V能看懂的“結構化語言”。OmniParser結合了

NVIDIA聯合高校發佈 “FlashInfer”：提升大語言模型推理效率的全新內核庫

隨着大語言模型（LLM）在現代人工智能應用中的廣泛應用，諸如聊天機器人和代碼生成器等工具依賴於這些模型的能力。然而，隨之而來的推理過程中的效率問題也日益突出。尤其是在處理注意力機制時，如 FlashAttention 和 SparseAttention，面對多樣化的工作負載、動態輸入模式以及 GPU 資源限制時，往往顯得力不從心。這些挑戰加上高延遲和內存瓶頸，迫切需要更高效、靈活的解決方案，以支持可擴展和響應迅速的 LLM 推理。爲了解決這一問題，來自華盛頓大學、NVIDIA、Perplexity AI 和卡內基梅

Roborock Saros Z70這款機器人吸塵器配有爪臂，非常適合撿起髒襪子

隨着機器人吸塵器技術的不斷進步，我們終於迎來了一個新突破——可以長出爪臂來協助清潔的Roborock Saros Z70。這款機器人吸塵器將在2025年CES上亮相，憑藉其創新設計，必將成爲未來家居清潔的標杆。Saros Z70的獨特之處在於它配備了一個名爲“OmniGrip”的機械臂，可以伸展和扭轉，從而拾取地面上的小物品或垃圾碎片，並將其移至指定區域。這款機器人吸塵器不僅能完成常規的清潔任務，還能夠記錄並識別可拾取的物品。初步清潔完成後，它會返回來拾起這些物品並帶走。如果用戶有需要