インターネットインフラケーパビリティプロバイダーのCloudflareによる最新の研究レポートによると、人工知能スタートアップ企業のPerplexityは、ウェブサイトのコンテンツを収集する際に明確なブロック命令を無視したと指摘されている。Cloudflareは、Perplexityがウェブページを収集しようとする際、自身のアイデンティティを隠してウェブサイトの設定を回避していることを観測したと述べている。
図の出典コメント:画像はAIで生成されたもので、画像ライセンス提供元はMidjourneyです。
Perplexityなどの人工知能製品は通常、インターネットから大量のデータを収集することに依存しており、これらのスタートアップ企業は長年、許可を得ずにテキスト、画像、動画を収集し、その製品の運用をサポートしてきた。近年、多くのウェブサイトは、標準的なRobots.txtファイルを使用してこの問題に対処しており、これは検索エンジンやAI会社に対して、どのページをインデックス化できるか、できないかを指示するものである。しかし、現在の取り組みの効果はそれほど顕著ではない。
Cloudflareの分析によると、Perplexityはロボットの「User-Agent」を変更することで、これらの制限を回避しているように見える。「User-Agent」とは、ウェブサイトへのアクセス者を識別するための信号であり、使用されるデバイスやバージョンタイプを示すものである。Cloudflareはまた、Perplexityが自律システムネットワーク(ASN)を変更したことも指摘している。これは、インターネット上の大きなネットワークを識別するための数字IDである。Cloudflareは数万のドメインと何百万ものリクエストにおいてこの行動を観測し、機械学習とネットワーク信号の組み合わせにより、このクローラーを成功裏に識別した。
Perplexityの発言者Jesse Dwyerは、Cloudflareの主張を否定し、「宣伝」であると述べた。彼はさらに、記事中のスクリーンショットにはコンテンツへのアクセスが表示されていないと補足した。さらに、Cloudflareが言及したクローラーは自社の所有物ではないと主張した。Cloudflareは、これらの問題を最初に認識したのは、顧客がPerplexityが既にRobotsファイルによってクローラーのアクセスをブロックしたウェブサイトを引き続き収集していると報告したためである。
Cloudflareの分析によると、Perplexityは宣言されたUser-Agentだけでなく、ブロックされた際にGoogle Chromeを模倣する一般的なブラウザも利用していた。最終的に、CloudflareはPerplexityのクローラーをその認証リストから削除し、新しい技術を導入してその活動を阻止した。
注目すべきは、Cloudflareが最近、人工知能クローラーに対して反対の姿勢を示し、ウェブサイト所有者が訪問するAIクローラーに料金を支払うことができるマーケットを提供した点である。CloudflareのCEOであるマシュー・プリンスは、人工知能がインターネットのビジネスモデル、特に出版者の収益モデルを破壊していると警告していた。これはPerplexityが今回の不正収集の指摘を受けたのが初めてではない。昨年、WIRED誌などのメディアが、Perplexityが自社のコンテンツをコピーしたと指摘したことがある。
ポイント:
🌐 CloudflareはPerplexityがコンテンツを収集する際、ウェブサイトのブロック命令を無視したと指摘している。
🤖 Perplexityは、User-Agentやネットワーク識別子を変更して、ウェブサイトの保護策を回避しようと試みている。
📉 CloudflareはAIクローラーに料金を支払うことができるマーケットを提供し、ウェブサイトのコンテンツを保護している。