根據互聯網基礎設施提供商 Cloudflare 的最新研究報告,人工智能初創公司 Perplexity 被指控在抓取網站內容時忽視了明確的阻止指令。Cloudflare 表示,他們觀察到 Perplexity 在嘗試抓取網頁時隱藏了自己的身份,以此規避網站的偏好設置。

perplexity

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

Perplexity 等人工智能產品通常依賴於從互聯網收集大量數據,而這些初創公司長期以來在未獲得許可的情況下抓取文本、圖像和視頻,以便支持其產品的正常運作。近年來,許多網站通過使用標準的 Robots.txt 文件來應對這一問題,該文件指示搜索引擎和 AI 公司哪些頁面可以被索引,哪些頁面不可以。然而,當前這些努力的成效並不顯著。

根據 Cloudflare 的分析,Perplexity 似乎通過更改其機器人的 “用戶代理” 來繞過這些限制。“用戶代理” 是指用於識別網站訪問者的設備和版本類型的信號。Cloudflare 還提到,Perplexity 更改了其自治系統網絡(ASN),這是一個識別互聯網上大型網絡的數字標識。Cloudflare 在數萬個域名和數百萬個請求中觀察到了這一行爲,憑藉機器學習和網絡信號的結合成功識別了這一爬蟲。

Perplexity 的發言人 Jesse Dwyer 對 Cloudflare 的指控表示反駁,並稱其博客文章爲 “推銷”。他補充稱,文中截圖顯示並沒有訪問內容。他進一步聲稱,Cloudflare 所提到的爬蟲並非其所擁有的。Cloudflare 表示,他們最初注意到這些問題是由於客戶投訴 Perplexity 仍在抓取其網站內容,儘管這些網站已通過 Robots 文件阻止了該爬蟲的訪問。

Cloudflare 的分析表明,Perplexity 不僅使用了其聲明的用戶代理,還在其被阻止時利用一個模擬 Google Chrome 的通用瀏覽器。最終,Cloudflare 決定將 Perplexity 的爬蟲從其驗證列表中移除,並採取新的技術來阻止其活動。

值得注意的是,Cloudflare 最近對人工智能爬蟲表示反對,並推出了一個市場,允許網站所有者向訪問其網站的 AI 爬蟲收費。Cloudflare 的首席執行官馬修・普林斯曾警告稱,人工智能正在破壞互聯網的商業模式,尤其是出版商的盈利模式。這並非 Perplexity 第一次面臨未經授權抓取的指控,早在去年,《連線》雜誌等媒體就曾指控 Perplexity 抄襲其內容。

劃重點:

🌐 Cloudflare 指控 Perplexity 在抓取內容時忽視網站的阻止指令。  

🤖 Perplexity 通過更改用戶代理和網絡標識試圖繞過網站保護措施。  

📉 Cloudflare 推出市場允許網站向 AI 爬蟲收費,以保護網站內容。