谷歌今日對其人工智能生態系統進行重大升級,正式將原生的“計算機使用”工具直接集成至 Gemini3.5Flash 模型中,全面取代先前的 Gemini2.5測試框架。此舉標誌着人工智能正從單純的“對話者”加速演變爲具備實際執行能力的“數字同事”,推動 AI 代理(Agent)從概念走向落地。
通過 Gemini API,開發者現可利用 Gemini3.5Flash 的原生能力構建智能代理。這些代理不再依賴複雜的底層代碼編寫,而是像人類用戶一樣,通過感知和理解屏幕截圖等視覺信息,直觀地導航應用程序,進而自動執行各種複雜的桌面任務。
這在辦公自動化、軟件測試及跨平臺數據處理等場景中展現出巨大潛能,包括自動化瀏覽網站、填寫長表單、點擊界面按鈕,以及高效處理桌面、移動和瀏覽器環境中的重複性數據收集工作。爲加速這一生態構建,谷歌已在 Browserbase 上開設了實時演示空間,供開發者立即測試 Gemini 企業代理平臺的相關功能。

面對賦予 AI 鼠標和鍵盤控制權帶來的潛在安全挑戰,如間接指令注入風險,谷歌強調已採取針對性的對抗訓練來增強模型防禦能力。同時,谷歌同步推出兩款企業級安全系統:其一允許企業設置軟件,要求 AI 在執行敏感或永久性更改操作前必須獲得人工明確批准;其二則能在檢測到潛在攻擊時立即自動凍結正在運行的任務,多維度保障用戶桌面安全。
配合此模型升級,谷歌同日發佈 Chrome149穩定版。該版本引入名爲“從屏幕中選擇”的實用功能,用戶可在瀏覽器的附件菜單中啓用,通過拖拽框選當前標籤頁中的任何圖像或文本,瞬間將其添加爲 Gemini 的提示語,大幅提升了基於網頁內容進行交互式提問的便捷性。
谷歌將原生計算機使用工具集成至 Gemini3.5Flash,不僅深化了其 AI 模型與操作系統的結合,也預示着 AI 行業正從追求大模型參數規模轉向追求實際的工具使用和任務執行能力。這一趨勢將加速 AI 代理在企業級自動化和消費者服務中的普及,重塑人機交互及軟件應用形態,使更高級別的自主 AI 代理成爲可能。
