AI公司爬蟲混亂網站屏蔽努力徒勞無功

近日，一項調查發現，數百個網站試圖阻止人工智能公司Anthropic抓取其內容，卻因爲使用過時的指令而屏蔽了錯誤的機器人。這一現象突顯了當前網站所有者在應對不斷變化的AI爬蟲生態系統時面臨的困境。

根據跟蹤網絡爬蟲的網站Dark Visitors的匿名運營者透露，許多網站正在封鎖Anthropic公司不再使用的兩個機器人"ANTHROPIC-AI"和"CLAUDE-WEB"，同時在不知情的情況下讓該公司真正的新爬蟲"CLAUDEBOT"保持暢通。這種情況的出現，主要是由於網站所有者將過時的指令複製粘貼到了robots.txt文件中，而AI公司不斷推出具有新名稱的爬蟲機器人。

數據分析股價

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

這一混亂局面不僅限於Anthropic。Dark Visitors的運營者指出，Apple和Meta等科技巨頭最近也添加了新的代理，使得網站所有者幾乎不可能手動跟上這些變化。更令人擔憂的是，一些AI公司被發現以隱蔽方式抓取不應抓取的網站，或直接忽視robots.txt文件的指令。

這種情況導致了一系列問題。一些網站選擇全面阻止爬蟲，或只允許少數特定爬蟲訪問，這可能會影響搜索引擎索引、互聯網存檔和學術研究。同時，一些網站面臨着AI爬蟲大規模訪問帶來的技術和經濟壓力。例如，維修指南網站iFixit報告稱，Anthropic的爬蟲在一天內訪問了其網站近一百萬次。另一家服務提供商Read the Docs則表示，一個爬蟲在一天內訪問了價值10TB的文件，導致高昂的帶寬費用。

數據來源倡議（Data Provenance Initiative）的一項研究進一步揭示了內容創作者和網站所有者在試圖阻止AI工具訓練時面臨的普遍困惑。研究指出，阻止AI抓取工具的責任完全落在網站所有者身上，而爬蟲數量的不斷增加和頻繁變化使這一任務變得異常艱難。

面對這一複雜局面，專家們建議網站管理員應該積極阻止可疑的AI爬蟲，即使可能會誤傷一些不存在的代理。同時，也有人預測會有更多創作者將內容轉移到付費牆後面，以防止不受限制的抓取。

AI公司爬蟲混亂網站屏蔽努力徒勞無功

相關推薦

勞德研究所啓動“彈弓”AI資助計劃:15個團隊入選，重新定義AI評估標準

谷歌將在聖誕島建設大型 AI 數據中心，或成監控前哨

谷歌與Anthropic再度接洽，或推動AI初創公司估值超3500億美元！

谷歌擬加大對 Anthropic 投資，估值或超 3500 億美元

冰島與 Anthropic 攜手推行 AI 教育計劃，引領全球教育新模式

AI公司爬蟲混亂 網站屏蔽努力徒勞無功

相關推薦

勞德研究所啓動“彈弓”AI資助計劃:15個團隊入選，重新定義AI評估標準

​谷歌將在聖誕島建設大型 AI 數據中心，或成監控前哨

谷歌與Anthropic再度接洽，或推動AI初創公司估值超3500億美元！

​谷歌擬加大對 Anthropic 投資，估值或超 3500 億美元

冰島與 Anthropic 攜手推行 AI 教育計劃，引領全球教育新模式

AI公司爬蟲混亂網站屏蔽努力徒勞無功

谷歌將在聖誕島建設大型 AI 數據中心，或成監控前哨

谷歌擬加大對 Anthropic 投資，估值或超 3500 億美元