人工知能は単なる「質問応答機」から、コンピュータを直接操作できる「行動派」へと進化しています。6月25日、グーグルは新たなGemini 3.5 Flashモデルを正式に発表しました。このモデルの主な特徴は、「コンピュータ操作(computer use)」能力の深く最適化された点で、AIがコンピュータ画面を直接制御し、複雑な跨ソフトウェアワークフローを自律的に実行できるようにするためのものです。
今回のアップデートは、Geminiの位置づけにおける大きな転換点です。従来のAIモデルはテキスト生成や情報検索にとどまっていたが、Gemini 3.5 Flashはより多くの「代行」権限が与えられています。プログラミングや研究など専門分野において非常に強力なタスク処理能力を示すだけでなく、複雑な運用環境で積極的なアクターとして機能します。公式基準テストでは、このモデルがコーディングタスクおよび自律エージェントタスクにおいて、3.1 Proバージョンをすでに超えており、反応速度も大幅に向上しています。これは自動化オフィスやツール呼び出しなどの頻繁な相互作用シナリオに完璧に合っています。

実際の応用において、Gemini 3.5 Flashの性能は目覚ましいものです。長くつながった複雑なタスクを処理でき、例えばゼロからシステム構築を独立して行い、煩雑な研究プロジェクトを管理することなどが可能です。Flashアーキテクチャの深い最適化により、グーグルは応答の「高品質さ」を確保しつつ、モデルの実行速度をさらに高め、AIエージェントが継続的なタスクをより円滑に処理できるようにし、人間の関与を最大限に減らすことを可能にしています。
現在、この技術はグーグルのエコシステム全体に広がっています。Geminiアプリおよび検索のAIモードはすでにこのモデルをデフォルトで搭載しており、開発者もGemini APIまたは企業版ツールを通じて関連機能を呼び出すことができます。また、グーグルは新しい個人向けAIエージェント「Gemini Spark」もこのモデルによって下位駆動されると発表しており、AIによるタスク補助の自動化プロセスをさらに推進します。
能力の進化とともに、セキュリティ保護も重要な課題となっています。グーグルは、より高い自律性を持つAIエージェントに対して、サイバーセキュリティおよびCBRN(化学・生物・放射線・核)分野のリスク管理を同時に強化したと明確に述べています。高リスクまたはセンシティブな要求に対応する際には、モデルは単純な拒否ではなく、必要に応じて制御可能なフレームワークを導入し、必要な時に自動停止して人間の確認を求め、タスクの実行が効率的かつ安全であることを確保します。Gemini 3.5 Flashのリリースによって、人間と機械のインタラクションの境界は再び拡張され、AIが直接デジタル世界を操作する時代が加速してきています。
