據 Wired 報道,包括《紐約時報》、Reddit 以及《USA Today》母公司在內的多家主流媒體和平臺,近期已正式封禁互聯網檔案館(Internet Archive)的“時光機(Wayback Machine)”工具。此舉旨在防止 AI 公司通過該存檔工具間接抓取受版權保護的內容用於模型訓練。

機器人黑客

“一邊受益,一邊封禁”的諷刺局面

諷刺的是,《USA Today》近期一篇揭露移民政策統計數據的深度報道,正是依靠“時光機”保存的歷史數據才得以完成。然而,該媒體集團發言人表示,目前已全面封禁所有爬蟲程序(包括 ia_archiverbot),以應對日益嚴峻的 AI 侵權風險。

媒體機構的多樣化限制手段

目前已有至少 23 家主流新聞網站採取了限制措施:

  • 完全屏蔽: 《紐約時報》和 Reddit 直接屏蔽了“時光機”的專用爬蟲。

  • 接口過濾: 《衛報》雖未完全屏蔽爬蟲,但將其內容從互聯網檔案館的 API 中排除,並對搜索界面進行了過濾,使用戶極難查閱其歷史存檔。

針對出版商的封禁行爲,包括蕾切爾·瑪多在內的百餘名在職記者聯合電子前沿基金會(EFF)發表支持信。他們認爲,“時光機”是事實覈查、追蹤權力機構言行變化以及保存數字歷史記錄的“不可或缺的工具”。

出版商認爲,AI 公司利用互聯網檔案館的海量數據進行訓練違反了版權法,並與其構成了直接競爭。但互聯網檔案館負責人馬克·格雷厄姆指出,公共網絡內容的持續閉鎖,正在嚴重削弱社會了解歷史真相和進行輿論監督的能力。若這一趨勢持續,大量早期數字歷史記錄可能面臨徹底遺失的風險。