Perplexity 被指控祕密抓取被禁止的網站內容

根據互聯網基礎設施提供商 Cloudflare 的最新研究報告，人工智能初創公司 Perplexity 被指控在抓取網站內容時忽視了明確的阻止指令。Cloudflare 表示，他們觀察到 Perplexity 在嘗試抓取網頁時隱藏了自己的身份，以此規避網站的偏好設置。

perplexity

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

Perplexity 等人工智能產品通常依賴於從互聯網收集大量數據，而這些初創公司長期以來在未獲得許可的情況下抓取文本、圖像和視頻，以便支持其產品的正常運作。近年來，許多網站通過使用標準的 Robots.txt 文件來應對這一問題，該文件指示搜索引擎和 AI 公司哪些頁面可以被索引，哪些頁面不可以。然而，當前這些努力的成效並不顯著。

根據 Cloudflare 的分析，Perplexity 似乎通過更改其機器人的 “用戶代理” 來繞過這些限制。“用戶代理” 是指用於識別網站訪問者的設備和版本類型的信號。Cloudflare 還提到，Perplexity 更改了其自治系統網絡（ASN），這是一個識別互聯網上大型網絡的數字標識。Cloudflare 在數萬個域名和數百萬個請求中觀察到了這一行爲，憑藉機器學習和網絡信號的結合成功識別了這一爬蟲。

Perplexity 的發言人 Jesse Dwyer 對 Cloudflare 的指控表示反駁，並稱其博客文章爲 “推銷”。他補充稱，文中截圖顯示並沒有訪問內容。他進一步聲稱，Cloudflare 所提到的爬蟲並非其所擁有的。Cloudflare 表示，他們最初注意到這些問題是由於客戶投訴 Perplexity 仍在抓取其網站內容，儘管這些網站已通過 Robots 文件阻止了該爬蟲的訪問。

Cloudflare 的分析表明，Perplexity 不僅使用了其聲明的用戶代理，還在其被阻止時利用一個模擬 Google Chrome 的通用瀏覽器。最終，Cloudflare 決定將 Perplexity 的爬蟲從其驗證列表中移除，並採取新的技術來阻止其活動。

值得注意的是，Cloudflare 最近對人工智能爬蟲表示反對，並推出了一個市場，允許網站所有者向訪問其網站的 AI 爬蟲收費。Cloudflare 的首席執行官馬修・普林斯曾警告稱，人工智能正在破壞互聯網的商業模式，尤其是出版商的盈利模式。這並非 Perplexity 第一次面臨未經授權抓取的指控，早在去年，《連線》雜誌等媒體就曾指控 Perplexity 抄襲其內容。

劃重點:
🌐 Cloudflare 指控 Perplexity 在抓取內容時忽視網站的阻止指令。
🤖 Perplexity 通過更改用戶代理和網絡標識試圖繞過網站保護措施。
📉 Cloudflare 推出市場允許網站向 AI 爬蟲收費，以保護網站內容。

Perplexity 被指控祕密抓取被禁止的網站內容

相關推薦

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

吸金 20 億美元！MiniMax完成 160 億港元新一輪融資，獲超 7 倍超額認購

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

​Perplexity 被指控祕密抓取被禁止的網站內容

相關推薦

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

​Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

吸金 20 億美元！MiniMax完成 160 億港元新一輪融資，獲超 7 倍超額認購

​摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

Perplexity 被指控祕密抓取被禁止的網站內容

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"