在數據驅動的AI時代,獲取大量數據已成爲訓練強大模型的關鍵。然而,獲取數據的方式卻引發了爭議。最近,Claude團隊因不當的數據抓取行爲而激起了衆怒。
事件的起因是Claude團隊的爬蟲在24小時內對某公司服務器進行了100萬次訪問,以不付費的形式抓取網站內容。這一行爲不僅明目張膽地無視了網站的"禁止爬取"公告,還強行佔用了大量服務器資源。
受害公司儘管盡力進行了防禦,但最終未能阻止Claude團隊的數據抓取。公司負責人憤怒地在社交媒體上發聲,譴責Claude團隊的行爲。許多網友也表達了他們的不滿,有人甚至建議用"偷"這個詞來描述這種行爲。

涉事的公司是iFixit,一家美國電子商務和操作指南網站。iFixit提供數百萬個頁面的免費在線維修指南,涵蓋消費電子產品和小工具。然而,iFixit發現Claude的爬蟲程序ClaudeBot在短時間內發起了大量請求,一天內訪問了10TB的文件,整個5月份總計訪問了73TB。
iFixit的CEO Kyle Wiens表示,ClaudeBot未經許可就"偷走"了他們的所有數據,並佔用了服務器資源。儘管iFixit在其網站上明確聲明禁止未經許可的數據抓取,但Claude團隊似乎對此視而不見。
Claude團隊的行爲並非個例。今年4月,Linux Mint論壇也曾遭受ClaudeBot的頻繁訪問,導致論壇運行緩慢甚至崩潰。此外,還有聲音指出,除了Claude和OpenAI的GPT以外,還有許多其他AI公司也在無視網站的robots.txt設置,強行抓取數據。
面對這種情況,有人建議網站所有者在頁面中添加帶有可追蹤或獨特信息的虛假內容,以檢測數據是否被非法抓取。iFixit實際上已經採取了這一措施,並發現他們的數據不僅被Claude,還被OpenAI抓取。
這一事件引發了關於AI公司數據抓取行爲的廣泛討論。一方面,AI的發展確實需要大量數據作爲支撐;另一方面,數據抓取也應尊重網站所有者的權益和規定。如何在推動技術進步和保護版權之間找到平衡點,是整個行業需要思考的問題。
