最近、グーグルは新たなジェミニAPIのURLコンテキスト機能を正式にリリースしました。この機能は、AIがウェブページを人間のように理解できるようにすることを目的としています。この機能は5月28日にGoogle AI Studioで公開され、グーグルがAI技術分野でまた一つの大きな飛躍を遂げたことを示しています。

image.png

私たちがよく使うリンク共有とは異なり、URLコンテキスト機能の動作方法は大きく異なります。通常、リンクをAIに渡すと、単純なブラウザツールや検索エンジンプラグインを使ってウェブページの内容を読み取るだけですが、このような方法ではページの要約や一部の情報しか取得できません。しかし、ジェミニのURLコンテキストは開発者向けのAPIであり、ウェブページのすべての内容を正確に解析・理解することができ、PDFや画像などさまざまな形式の情報を処理することも可能です。

image.png

具体的には、URLコンテキスト機能は最大34MBのウェブページコンテンツを処理でき、HTML、JSON、CSVなどのさまざまなファイル形式をサポートしています。グーグル製品担当者のローガン・キルパトリック氏は、この機能が開発者の作業フローを大幅に簡素化し、数行のコードで深い情報抽出と処理を行うことが可能になったと述べています。従来の「検索-強化生成(RAG)」プロセスと比較して、URLコンテキストは面倒なステップを減らし、追加のコンテンツ抽出やベクトルストレージ、検索メカニズムの必要性がありません。

この機能の能力は非常に強力です。単純なURL一つで、ジェミニはテスラの財務報告書から「総資産」と「総負債」などの重要なデータを抽出することができます。これらの情報は通常の方法では取得できないことがあります。さらに、PDF内の複雑な構造、例えば表や脚注なども認識できます。これにより、開発者は必要な情報をより迅速かつ正確に取得でき、効率が大幅に向上します。

ただし、URLコンテキストにも限界があります。有料壁を突破することはできず、ログインが必要なコンテンツに対しては無力です。また、YouTube動画やGoogle Docsなどの専用ツールについては処理しません。コンテンツの処理費用はトークン数に基づいて課金されるため、開発者は情報源を適切に設計し、コストを制御する必要があります。

URLコンテキスト機能は、AI技術の前線のトレンドを示しており、私たちに未来の情報検索方法について新たな認識をもたらしています。

記事のアドレス:https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/