近日,烏克蘭一家專注於人體3D 模型的網站 Trilegangers 遭遇了前所未有的流量攻擊,導致其服務器癱瘓。該網站致力於爲3D 藝術家和遊戲開發者提供海量的人體3D 模型數據,然而卻因爲 OpenAI 的爬蟲 GPTBot 的頻繁抓取而陷入困境。
據 Trilegangers 的工作人員透露,儘管網站在使用協議中明確禁止未經授權的抓取和使用,但由於未正確設置 robots.txt 文件來阻止爬蟲的訪問,最終導致了服務器負荷過重。根據服務器日誌,OpenAI 的 GPTBot 爬蟲通過600多個不同的 IP 地址發起了數以萬計的請求,結果使得網站無法正常運作,類似於遭遇了分佈式拒絕服務(DDoS)攻擊。

OpenAI 在其爬蟲說明中提到,若網站不希望 GPTBot 抓取內容,需在 robots.txt 文件中進行設置。然而,Trilegangers 並未意識到這一點,從而導致了當前的窘境。儘管 robots.txt 文件並不是法律要求,但如果網站已經聲明禁止未經授權使用,GPTBot 的抓取行爲仍可能違反相關規定。
此外,由於使用亞馬遜 AWS 服務器,Trilegangers 在帶寬和流量上的消耗也急劇上升,給其帶來了額外的費用壓力。爲應對這一突發事件,Trilegangers 已經採取措施,設置了正確的 robots.txt 文件,並通過 Cloudflare 屏蔽了包括 GPTBot 在內的多種爬蟲的訪問,這一做法預計將有效緩解服務器負擔,保障網站的正常運作。
這一事件引發了人們對網絡爬蟲行爲的關注,尤其是在 AI 技術日益發展的背景下,如何平衡技術應用與版權保護,成爲一個值得深思的話題。
