AI 助手正在從“只會動嘴”向“替你動手”完成跨越。

近日,谷歌 正式在 Pixel10ProGalaxy S26Ultra 上推出了 Gemini 的任務自動化功能(Task Automation)。這標誌着 AI 助手正式從“對話工具”進化爲“執行代理(Agent)”,不僅能回答問題,還能直接接管手機屏幕替你辦事。

實測體驗:全程“無人駕駛”,但需要點耐心

OSCHINA 披露的實測案例中,如果你想點一份 DoorDash 外賣,只需對 Gemini 下達自然語言指令,接下來的操作堪稱“科幻”:

後臺代操: AI 會自動打開應用、識別界面元素、填寫表單並選擇選項,最後確認訂單。

異步運行: 執行過程中,屏幕底部會實時滾動“正在選擇目的地”等進度。最酷的是,你可以切換去刷視頻或回郵件,AI 會在後臺持續運行直至任務完成。

速度瓶頸: 目前的缺點是“慢”。由於 AI 需要逐幀識別界面並進行雲端推理,手動操作只需2分鐘的任務,AI 可能需要9分鐘。

技術破局:打破“信息查詢”的十年天花板

過去十年,從 Siri 到 Google Assistant,語音助手始終停留在定鬧鐘、查天氣的淺層交互。Gemini 任務自動化的核心突破在於其具備了複雜的長鏈條任務規劃能力,讓“發令-等待結果”成爲了可能。

生態侷限:仍處於“概念產品”階段

儘管前景誘人,但目前的自動化功能仍面臨不少挑戰:

適配範圍窄: 目前僅支持 Uber、DoorDash 等流程高度標準化的應用。

容錯率待提升: 界面識別錯誤或支付環節的安全限制,仍是阻礙其大規模普及的硬傷。

巨頭暗戰:2026開啓“AI Agent”元年

隨着 OpenAI 的 Operator 和蘋果 Apple Intelligence 的相繼發力,谷歌 此次搶先在移動端切入,意在依託 Android 生態搶佔高頻生活場景。

雖然現階段的 Gemini 任務自動化看起來還有些“笨拙”,但技術進步往往遵循指數曲線。當 AI 能夠以人類的速度流暢操作任意 App 時,我們與手機的交互方式將被徹底改寫。這場“雖慢但酷”的進化,正是通往通用人工智能(AGI)的關鍵一步。