近年來,隨着人工智能技術的飛速發展,網絡爬蟲對維基媒體項目造成的帶寬壓力日益嚴重。維基媒體基金會的代表指出,自2024年1月以來,用於服務多媒體文件的帶寬消耗增加了50%。這一增長主要來源於自動化程序,這些程序不斷從維基媒體的開放許可圖像庫中抓取內容,以供 AI 模型進行訓練。

維基媒體基金會的工作人員 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公開信中表示,這一帶寬增加並非源於人類用戶,而是由於機器人程序的強大需求。他們強調:“我們的基礎設施旨在承受人類用戶在高興趣事件期間的突發流量,但爬蟲產生的流量卻是前所未有的,給我們帶來了越來越大的風險和成本。”
根據維基媒體的統計,約65% 的高成本內容流量是由這些爬蟲生成的,儘管爬蟲只佔頁面瀏覽量的35%。這是因爲維基媒體的緩存方案將熱門內容分發到全球各地的數據中心以提高性能,而爬蟲在訪問頁面時並不考慮內容的受歡迎程度,因此會請求不那麼受歡迎的內容,這使得內容必須從核心數據中心獲取,消耗了更多的計算資源。
在過去的一年中,關於網絡爬蟲的過度抓取問題已經引起了多個開源項目的關注。例如,Git 託管服務 Sourcehut、Diaspora 開發者 Dennis Schubert、修理網站 iFixit 和 ReadTheDocs 等均對此表示不滿。他們都反映了 AI 爬蟲在內容抓取中表現出的過度需求。
維基媒體基金會在其2025/2026年的年度規劃中提出了 “減少爬蟲生成的流量” 的目標,計劃減少20% 的請求率和30% 的帶寬使用。他們希望能夠優先考慮人類用戶的使用體驗,並支持維基媒體項目和貢獻者。
雖然許多網站認識到爲爬蟲提供帶寬是商業的一部分,但隨着像 ChatGPT 這樣的生成 AI 的普及,爬蟲的抓取行爲變得愈發激進,甚至可能對源網站的存在構成威脅。維基媒體基金會承認,雖然 Wikipedia 和 Wikimedia Commons 對機器學習模型的訓練非常重要,但他們必須優先考慮人類用戶的需求。
爲應對這一挑戰,已經出現了一些工具來對抗爬蟲的過度抓取行爲,例如數據中毒項目 Glaze、Nightshade 和 ArtShield,以及網絡工具 Kudurru、Nepenthes 等。然而,現有的機器人協議(robots.txt)並不能完全有效地限制這些爬蟲的行爲,尤其是它們可能會僞裝成其他爬蟲以規避封鎖。
劃重點:
🌐 爬蟲對維基媒體帶寬的消耗增加50%,主要來自於 AI 模型的內容抓取。
🤖 約65% 的高成本內容流量由爬蟲生成,雖然爬蟲只佔頁面瀏覽量的35%。
📉 維基媒體基金會計劃在2025/2026年減少爬蟲生成的流量,優先考慮人類用戶的需求。
