グーグルが長年約束していたAIのビジョンは、のリリースにより実際に現実になります。本日、は、Geminiを基盤とした「タスク自動化」機能がベータテスト段階に入ったことを発表しました。この機能は、AIアシスタントが単なる「情報検索者」から、アプリ間で作業を遂行できる「デジタルオペレーター」に進化したことを示しており、注文やタクシーの手配など複雑なプロセスを人間のようにシミュレーションして完了できます。

image.png

視覚的な衝撃:スマホが「自分自身を使い始める」

従来のAPI接続とは異なり、の自動化機能は、仮想画面内で実際のユーザー操作をシミュレーションします:

  • スマートタクシー:「空港へタクシーを呼ぶ」という指示が出されると、はUberを自動的に起動し、具体的なターミナル(複数ターミナルがある場合は主動的に尋ねます)を確認し、目的地を自動的に入力します。

  • 食事の代わりの注文:「コーヒーとクロワッサンを注文して」という指示に対して、AIはスクリーンをスワイプしてスターバックスメニューの中の特定の商品(例:Flat White)を探し出し、複雑なスクロール選択を人間のように処理することができます。

安全な論理:重要な節点では人間がコントロール

自律性によって生じるリスクを回避するため、グーグルは自動化プロセスの中に厳密な人間による確認メカニズムを設けています:

明示的な操作:ユーザーはのすべてのステップをリアルタイムで見ることができ、いつでも「Take control」で自動化プロセスを引き継ぐか終了することができます。

最終確認制:注文または支払いの最終ステップにおいて、システムは支払い画面で強制的に停止し、ユーザーが明細を確認して「確認」ボタンを手動でクリックするまで待機します。これにより、すべての取引が制御された状態で行われることが保証されます。

現在、この機能は主に外食配達とライドシェアアプリに優先的に対応しています。および後続のユーザーにとって、スマートフォンは単なるアプリの実行プラットフォームではなく、自然言語の意図を理解し、それを具体的な操作に変換する「スーパーエージェント」として機能します。