グーグルのDeepMindチームは、ネイティブなコンピュータ使用能力をGemini 3.5 Flashモデルに直接統合する重要な技術的突破を発表しました。これにより、開発者は単一のモデルを通じて、ブラウザ、スマートフォン、およびコンピュータデスクトップ上で自律的に画面を見ながら操作を行うAIエージェントを構築できるようになりました。
以前はこの機能が独立したモデルとして提供されており、開発者は複数のモデル間で複雑な切り替えや文脈の伝達を行っていた必要があります。今やネイティブな統合が可能になったことで、AIはマルチプラットフォームの長時間タスクを実行する際に情報の手動伝達を必要とせず、開発プロセスが大幅に簡略化されました。
文脈の喪失から卒業し、エージェントの信頼性の課題に直面
グーグルのチームは、AIエージェントの核心的な制約は単一のツールの限界ではなく、複数のツールの切り替え時に生じる文脈情報の喪失にあると考えています。検索、地図、コンピュータ操作を1つのモデルアーキテクチャに統合することで、文脈が連続して流れ、複雑なタスクの途中で失敗する確率が大幅に低下します。
このような「複数のツールを統合」する設計は、内部がつながった総合ビルを直接建設するようなものです。これにより、複数の独立した建物間での長く間違いやすい通信プロセスを省略できます。このようなアーキテクチャレベルの調整は、エージェント型タスクの信頼性と応答遅延に実質的な改善をもたらすことが期待されます。
三大主要シナリオを特定し、多層的なセキュリティ防御を強化
このネイティブな機能は主に三大主要シナリオに応用され、数時間乃至数日続く自動化タスク、ユーザーインターフェースの一貫性を継続的に検証するソフトウェアテスト、アプリケーション間をまたぐ知識作業などが含まれます。これらのシナリオは、複数のタスク間の文脈の連続性に強く依存しており、人間の繰り返しで高エネルギーを要する作業を効果的に代替することができます。
