Perplexity 被指控秘密抓取被禁止的网站内容

根据互联网基础设施提供商 Cloudflare 的最新研究报告，人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。Cloudflare 表示，他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份，以此规避网站的偏好设置。

perplexity

图源备注：图片由AI生成，图片授权服务商Midjourney

Perplexity 等人工智能产品通常依赖于从互联网收集大量数据，而这些初创公司长期以来在未获得许可的情况下抓取文本、图像和视频，以便支持其产品的正常运作。近年来，许多网站通过使用标准的 Robots.txt 文件来应对这一问题，该文件指示搜索引擎和 AI 公司哪些页面可以被索引，哪些页面不可以。然而，当前这些努力的成效并不显著。

根据 Cloudflare 的分析，Perplexity 似乎通过更改其机器人的 “用户代理” 来绕过这些限制。“用户代理” 是指用于识别网站访问者的设备和版本类型的信号。Cloudflare 还提到，Perplexity 更改了其自治系统网络（ASN），这是一个识别互联网上大型网络的数字标识。Cloudflare 在数万个域名和数百万个请求中观察到了这一行为，凭借机器学习和网络信号的结合成功识别了这一爬虫。

Perplexity 的发言人 Jesse Dwyer 对 Cloudflare 的指控表示反驳，并称其博客文章为 “推销”。他补充称，文中截图显示并没有访问内容。他进一步声称，Cloudflare 所提到的爬虫并非其所拥有的。Cloudflare 表示，他们最初注意到这些问题是由于客户投诉 Perplexity 仍在抓取其网站内容，尽管这些网站已通过 Robots 文件阻止了该爬虫的访问。

Cloudflare 的分析表明，Perplexity 不仅使用了其声明的用户代理，还在其被阻止时利用一个模拟 Google Chrome 的通用浏览器。最终，Cloudflare 决定将 Perplexity 的爬虫从其验证列表中移除，并采取新的技术来阻止其活动。

值得注意的是，Cloudflare 最近对人工智能爬虫表示反对，并推出了一个市场，允许网站所有者向访问其网站的 AI 爬虫收费。Cloudflare 的首席执行官马修・普林斯曾警告称，人工智能正在破坏互联网的商业模式，尤其是出版商的盈利模式。这并非 Perplexity 第一次面临未经授权抓取的指控，早在去年，《连线》杂志等媒体就曾指控 Perplexity 抄袭其内容。

划重点:
🌐 Cloudflare 指控 Perplexity 在抓取内容时忽视网站的阻止指令。
🤖 Perplexity 通过更改用户代理和网络标识试图绕过网站保护措施。
📉 Cloudflare 推出市场允许网站向 AI 爬虫收费，以保护网站内容。

Perplexity 被指控秘密抓取被禁止的网站内容

相关推荐

腾讯混元发布科研智能体Hyra-1.0，单一框架打通AI研发与科学发现

110 亿参数塞进六类科学大脑：上智院开放"神珍"多模态模型，从蛋白质到气象场一个模型全读懂

Gartner最新预测：全球AI模型与平台市场高速增长， 2026 年规模将达 640 亿美元

三星电子成立RX机器人事业部，加速机器人业务商业化

Adobe Project Indigo引入AI摄影助手，利用大模型优化拍摄与编辑体验

​Perplexity 被指控秘密抓取被禁止的网站内容

相关推荐

腾讯混元发布科研智能体Hyra-1.0，单一框架打通AI研发与科学发现

110 亿参数塞进六类科学大脑：上智院开放"神珍"多模态模型，从蛋白质到气象场一个模型全读懂

Gartner最新预测：全球AI模型与平台市场高速增长， 2026 年规模将达 640 亿美元

三星电子成立RX机器人事业部，加速机器人业务商业化

Adobe Project Indigo引入AI摄影助手，利用大模型优化拍摄与编辑体验

Perplexity 被指控秘密抓取被禁止的网站内容