グーグルは最近、新しい「Gemini AIモデル—Gemini2.5Computer Use」のプレビューを公開しました。このモデルは、AIエージェントがブラウザを通じてウェブページをナビゲートし、操作する能力を備えています。このモデルは、強力な「視覚的理解と推論能力」を活用し、人間のようにユーザーの要求を分析し、本来人間向けに設計されたインターフェース内で複雑な操作、例えばフォームの入力と送信などを行うことができます。

1759897509317.png

AIエージェントの新境界

Gemini2.5Computer Useにより、AIは過去では人間が必要だったタスクを実行できるようになりました。主な用途には、UIテストや、APIや直接的な接続がないユーザーがウェブインターフェースをナビゲートすることです。このモデルの初期バージョンは、商品を買い物カートに追加するなど、AIエージェントがブラウザでタスクを独自に完了する研究プロトタイプであるMarinerプロジェクトに使用されていました。

この新しいモデルのリリースは、AIエージェント機能の競争が白熱している時期に重なりました。グーグルが発表した前日には、OpenAIが開発者イベントで新たなChatGPTアプリを発表し、継続的にそのエージェント機能に注目しています。この機能は、ユーザーのために複雑なタスクを完了します。また、Anthropicも昨年、「コンピュータ使用」機能を持つClaude AIモデルのバージョンをリリースしました。

性能と制限

グーグルは、そのGemini2.5Computer Useモデルが「多くのネットワークおよびモバイルベンチマークテストにおいて、主要な代替製品を上回っている」と述べています。

しかし、ChatGPT AgentAnthropicの類似ツールとは異なり、グーグルの新しいAIモデルは現在、ブラウザ環境のみにアクセス可能であり、コンピュータ全体の環境を制御することはできません。グーグルはこのモデルについて、「デスクトップオペレーティングシステムレベルの制御に最適化されていない」と述べており、現在サポートされている13種類の操作は、インターネットブラウザを開く、テキストを入力する、要素をドラッグ&ドロップするなどが含まれます。

体験方法

開発者は現在、Google AI StudioVertex AIを通じてGemini2.5Computer Useを体験できます。

一般ユーザーおよび関心のある人々は、Browserbaseが提供するデモを通して、このモデルが「2048ゲームをプレイする」や「Hacker Newsを閲覧して人気のある議論を理解する」などのタスクを実行する様子を見ることができます。