近日,一項調查發現,數百個網站試圖阻止人工智能公司Anthropic抓取其內容,卻因爲使用過時的指令而屏蔽了錯誤的機器人。這一現象突顯了當前網站所有者在應對不斷變化的AI爬蟲生態系統時面臨的困境。
根據跟蹤網絡爬蟲的網站Dark Visitors的匿名運營者透露,許多網站正在封鎖Anthropic公司不再使用的兩個機器人"ANTHROPIC-AI"和"CLAUDE-WEB",同時在不知情的情況下讓該公司真正的新爬蟲"CLAUDEBOT"保持暢通。這種情況的出現,主要是由於網站所有者將過時的指令複製粘貼到了robots.txt文件中,而AI公司不斷推出具有新名稱的爬蟲機器人。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這一混亂局面不僅限於Anthropic。Dark Visitors的運營者指出,Apple和Meta等科技巨頭最近也添加了新的代理,使得網站所有者幾乎不可能手動跟上這些變化。更令人擔憂的是,一些AI公司被發現以隱蔽方式抓取不應抓取的網站,或直接忽視robots.txt文件的指令。
這種情況導致了一系列問題。一些網站選擇全面阻止爬蟲,或只允許少數特定爬蟲訪問,這可能會影響搜索引擎索引、互聯網存檔和學術研究。同時,一些網站面臨着AI爬蟲大規模訪問帶來的技術和經濟壓力。例如,維修指南網站iFixit報告稱,Anthropic的爬蟲在一天內訪問了其網站近一百萬次。另一家服務提供商Read the Docs則表示,一個爬蟲在一天內訪問了價值10TB的文件,導致高昂的帶寬費用。
數據來源倡議(Data Provenance Initiative)的一項研究進一步揭示了內容創作者和網站所有者在試圖阻止AI工具訓練時面臨的普遍困惑。研究指出,阻止AI抓取工具的責任完全落在網站所有者身上,而爬蟲數量的不斷增加和頻繁變化使這一任務變得異常艱難。
面對這一複雜局面,專家們建議網站管理員應該積極阻止可疑的AI爬蟲,即使可能會誤傷一些不存在的代理。同時,也有人預測會有更多創作者將內容轉移到付費牆後面,以防止不受限制的抓取。