Claude支持像人一樣操控計算機功能在研究中顯示出優勢和侷限性

AIbase基地

Published in AI News · 1 minute read · Jul 17, 2025

自從 Anthropic 於十月推出 Claude 的 “計算機使用” 功能後，AI 智能體的能力引起了廣泛關注。這一功能使得 Claude 成爲首個能夠通過與人類相同的圖形用戶界面（GUI）進行交互的前沿模型。

Claude 通過訪問桌面屏幕截圖，並通過鍵盤和鼠標操作來完成任務，這爲用戶提供了一種無需 API 接口就能自動化操作的便利方式。

在一項由新加坡國立大學 Show Lab 進行的研究中，研究人員對 Claude 進行了多項任務的測試，包括網絡搜索、工作流程完成、辦公室生產力和視頻遊戲等。這些任務考察了 Claude 在不同場景下的能力，比如在網頁上搜索併購買商品，或將信息從網站提取並插入到電子表格中。通過這些測試，研究人員從規劃、行動和評估三個維度評估了 Claude 的表現。

在執行復雜任務方面，Claude 的表現令人印象深刻。它能夠制定出清晰的計劃，按步驟執行，並在每一步評估自己的進展。此外，它還能夠在多個應用之間進行協調，例如將信息網頁複製到電子表格中。在某些情況下，Claude 甚至能在任務結束時回顧結果，以確保所有內容與目標一致。

然而，Claude 也會出現一些簡單的失誤，這些錯誤是普通用戶容易避免的。例如，在一個任務中，它未能完成訂閱，因爲沒有向下滾動網頁找到相應的按鈕。

還有一些情況下，它在執行顯而易見的任務時，比如選擇和替換文本或將項目符號更改爲數字，表現得十分笨拙。此外，Claude 有時並沒有意識到自己的錯誤，或對未能達成目標的原因做出錯誤假設。

研究人員指出，Claude 在自我評估機制方面的不足可能是導致這些失誤的原因，未來可能需要改進 GUI 代理框架，以便增加更嚴格的自我評估模塊。研究結果還顯示，現有的 GUI 代理並不能完全復刻人類使用計算機時的基本細微差別。

對於企業而言，使用簡單文本描述自動化任務的潛力十分誘人，但目前這一技術尚未達到大規模應用的成熟度。模型的行爲不穩定，可能導致在敏感應用中的不可預知後果。同時，通過人類設計的界面來執行操作，也並不是完成任務的最快方法。

在廣泛部署之前，企業還需關注將大型語言模型（LLM）授權鼠標和鍵盤所帶來的安全風險。例如，有研究顯示，網絡代理容易受到人類能夠輕易忽視的對抗性攻擊。儘管如此，像 Claude 這樣的工具仍可以幫助產品團隊探索創意，迭代解決方案，從而在開發新功能或服務之前節省時間和成本。

劃重點:
1. 🤖 Claude 具備通過圖形用戶界面進行復雜任務自動化的能力，表現出色。
2. ⚠️ Claude 在執行簡單任務時會出現失誤，反映出其自我評估機制的不足。
3. 💼 現階段，該技術尚不適合大規模應用，企業需謹慎對待潛在的安全風險

DeepSeek推首款推理模型R1-Lite-Preview，性能超越 OpenAI o1

中國私募巨頭幻方量化旗下的 DeepSeek，近日發佈了其最新的推理專注型大型語言模型 R1-Lite-Preview。該模型目前僅通過 DeepSeek Chat 這一網頁聊天機器人平臺提供給公衆使用。 DeepSeek 以其在開源 AI 生態系統中的創新貢獻而聞名，這次的新發布旨在爲公衆帶來高水平的推理能力，同時保持對可訪問性和透明性的承諾。儘管 R1-Lite-Preview 目前僅在聊天應用中可用，但它已憑藉接近甚至超過 OpenAI 近期發佈的 o1-preview 模型的性能引起了廣泛關注。 R1-Lite-Preview 採用 “鏈式思維” 推理，能夠展示其在

次元壁破了？Comfyui_Object_Migration不僅支持一鍵換裝，真人還能秒變3D模型

你是否曾經幻想過，將自己喜歡的動漫角色服裝穿到現實生活中?或者，將你設計的服裝直接“套”到模特身上，省去繁瑣的製作過程?現在，這一切都可以實現了!一項名爲“Comfyui_Object_Migration”的換衣模型和工作流橫空出世，讓你輕鬆玩轉服裝風格遷移，甚至還能生成3D 模型，簡直是設計師和二次元愛好者的福音!這項技術的核心功能就是“一鍵換衣”。想象一下，你只需上傳一張服裝圖片和一張人物照片，輕輕一點，就能將服裝完美地“穿”到人物身上，毫無違和感，就像量身定製一般

英偉達Blackwell AI 芯片進入全面生產，業績屢創新高

在2025年第三季度的財報中，英偉達宣佈其Blackwell AI 芯片已經進入全面生產階段，且公司整體業績再創佳績，進一步鞏固了其在全球科技行業的領導地位。這一季度，英偉達的人工智能相關業務收入高達307億美元，佔總收入的絕大部分，顯示出 AI 市場的強勁需求。儘管近期有報道稱，英偉達的新旗艦Blackwell AI 服務器可能面臨冷卻問題，但公司並未對此進行迴應。英偉達的高層在電話會議上表示，Blackwell的生產狀態良好，正在 “全速推進”。首席財務官科萊特・克雷斯透露，本季度公司已

Meta爲Messenger引入AI噪音抑制和高清視頻通話功能

Meta正在爲其消息應用程序Messenger推出多項新功能，包括高清視頻通話、AI噪音抑制以及更多實用工具，進一步提升用戶溝通和通話體驗。 Messenger已將高清視頻通話設爲Wi-Fi通話的默認選項，並作爲蜂窩通話的可選功能。同時，用戶還可通過設置菜單啓用語音隔離功能，減少背景噪音，優化通話質量。這兩項功能旨在滿足日益增長的高品質通信需求。 Messenger引入了全新的音頻和視頻語音消息功能。在聯繫人無法接聽電話時，用戶可以通過點擊“錄製消息”按鈕發送語音或視頻錄音，類似於

朱嘯虎押注Gyges Labs AI智能硬件迎來新風口

智能可穿戴設備公司Gyges Labs宣佈完成數千萬元Pre-A輪融資，投資方包括金沙江創投、韶音創始人陳皞及NYX Ventures。Gyges Labs成立於2022年，由斯坦福博士賈捷陽創立，專注於光學與AI技術結合，開發下一代智能眼鏡和可穿戴設備。 Gyges Labs的核心技術DigiWindow大幅縮小了光學模組的體積，從釐米級降至毫米級，實現智能眼鏡的輕量化設計，同時擺脫了傳統光學組件的漏光和彩虹紋問題。這一技術支持普通視光學鏡片，無需定製即可滿足近視和遠視用戶需求，並保障了視覺效果與隱私安全性。目

快手程一笑：可靈AI已有超500萬用戶單月流水超千萬元

快手科技在2024年第三季度的業績公告中宣佈，公司第三季度的營收達到311.3億元人民幣，同比增長11.4%，超出市場預期的310.3億元。經調整淨利潤爲39億元，同比增長24.4%，顯示出公司的強勁增長勢頭。在業績電話會上，快手科技創始人兼首席執行官程一笑分享了公司在人工智能大模型領域的最新進展。