Anthropic 使用的 ClaudeBot 網絡爬蟲在24小時內頻繁訪問 iFixit 網站,似乎違反了復公司的使用條款。
iFixit CEO Kyle Wiens 表示,這種爲不僅未經授權地使用內容,還佔用了他們的開發資源。對此事,Fixit 已經在 robots.txt 中添加了 crawl-delay 擴展以限制爬蟲訪問。

除了 iFixit 外,Read the Docs 的聯合創始人 Eric Holscher 和 Freelancer.com 的 CEO Matt Barrie 也稱他們的網站遭到 Anthropic 爬蟲的侵擾。
此前幾個月,有 Reddit 帖子報告 Anthropic 的網頁抓取活動急劇增加。今年4月,Linux Mint 網頁論壇的站點故障也被歸因於 ClaudeBot 的抓取活動。
很多 AI 公司像 OpenAI 都通過 robots.txt 文件來拒絕爬蟲訪問,但這並不提供網站所有者靈活定義允許和禁止哪些抓取內容的選項。另一家 AI 公司 Perplexity 則被發現完全忽略 robots.txt 排除規則。
儘管如此,這仍是許多公司保護數據不被用於 AI 訓練材料的少數選擇之一,Reddit 最近也在打擊網絡爬蟲方面採取了行動。
