OpenAIが「Garlic」と呼ばれるGPT-5.2を発表する直前、グーグルはその新しくアップグレードされたAI研究エージェントであるGemini Deep Researchを先にリリースしました。この最新のGemini 3 Pro大規模モデルに基づいて構築されたスマートエージェントは、高品質な調査レポートを生成できるだけでなく、特に重要なのは、開発者向けに新しいInteractions APIを通じてグーグルの高度な研究能力を第三者的なアプリケーションに埋め込むことを可能にしたことです。

これは、グーグルが「エージェント型AI」時代への迅速な展開を示すものです。つまり、人間が情報を自分で検索するのではなく、AIエージェントが複雑な情報タスクを代行する未来です。Gemini Deep Researchは大量の情報と超長文のコンテキストに対する処理に特化しており、効率的に膨大なデータフローを統合でき、取引先調査や薬物毒性安全性評価など、厳しい要件を持つシナリオに適しています。グーグルは、このツールがすぐにGoogle Search、Google Finance、Gemini App、そして学術界で広く好まれているNotebookLMなどの製品に統合される予定であると述べています。

エージェント型AIにおいて長期的な推論タスクで頻繁に発生する「幻覚(hallucination)」問題――つまり大規模モデルが空想によって内容を作り出すこと――に対応するため、Gemini 3 Proは事実の正確性を特に最適化しました。多段階かつ長期にわたる自律的な意思決定プロセスでは、一度でも誤った推論が起こると全体の出力が無効になる可能性があるため、モデルの信頼性が非常に重要です。

技術的優位性を検証するために、グーグルはDeepSearchQAという新しいベンチマークテストも公開しました。このテストは、複雑でマルチホップ型の情報検索タスクにおけるAIエージェントの性能を専門に評価するものであり、すでにオープンソース化されています。また、Gemini Deep Researchは2つの外部の権威あるテストにも登場しました。1つは難解で珍しい問題で知られる「人類の最終試験(Humanity’s Last Exam)」、もう1つはブラウザ自動化タスクに焦点を当てたBrowserCompです。結果として、グーグルのエージェントは前2つのテストで上回りましたが、BrowserCompではOpenAIのChatGPT 5 Proにわずかに劣りました。

皮肉なことに、これらの比較データはリリース日の翌日にすでに古くなってしまいました。なぜなら、OpenAIはその後正式にGPT-5.2を発表し、自社ベンチマークを含む多くのテストで競合を圧倒したと宣言したからです。特にグーグルを打ち負かしたと指摘しています。このリリースタイミングの正確さは、2つのAIの大手企業がエージェント型インテリジェンスの分野で激しい競争を繰り広げていることを示しています。一方は深い研究能力によって次世代のAIアシスタントを定義しようとしており、もう一方はより汎用的な推論性能によって反撃しています。本当のAIエージェント戦争は、おそらくまだ始まったばかりです。