藝術家使用Kudurru工具對抗AI剽竊

藝術家們現在可以使用名爲Kudurru的新工具來對抗AI網絡爬蟲，通過發送錯誤圖像，干擾網絡爬蟲的培訓過程。Kudurru是一種基於網絡的工具，旨在幫助藝術家保護他們的作品免受未經許可的AI培訓。儘管Kudurru爲藝術家提供了一種新的對抗AI培訓的方法，但它仍然有限，無法解決整個問題。一些藝術家和倡導者認爲，實現廣泛而永久的變革可能需要政府幹預，以確保AI公司停止濫用網絡爬蟲培訓。

維基媒體基金會對 AI 爬蟲的帶寬負擔發出警告

近年來，隨着人工智能技術的飛速發展，網絡爬蟲對維基媒體項目造成的帶寬壓力日益嚴重。維基媒體基金會的代表指出，自2024年1月以來，用於服務多媒體文件的帶寬消耗增加了50%。這一增長主要來源於自動化程序，這些程序不斷從維基媒體的開放許可圖像庫中抓取內容，以供 AI 模型進行訓練。維基媒體基金會的工作人員 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公開信中表示，這一帶寬增加並非源於人類用戶，而是由於機器人程序的強大需求。他們強調:“我們的基礎設施旨在承受人類

Cloudflare 推出 “AI 迷宮”，引導惡意爬蟲走入虛假數據陷阱

全球知名的網絡基礎設施公司 Cloudflare 近日宣佈推出一項名爲 “AI Labyrinth”（AI 迷宮）的新工具，旨在打擊未經授權抓取網站數據的網絡爬蟲。這一舉措的核心在於，當 Cloudflare 監測到不當的爬蟲行爲時，該工具會將這些爬蟲引導到一系列 AI 生成的虛假頁面，目的在於 “拖延、迷惑並浪費” 惡意爬蟲的資源。長期以來，網站管理員依賴 “robots.txt” 文件來管理爬蟲的訪問權限，但很多 AI 公司，包括一些知名企業，如 Anthropic 和 Perplexity AI，常常忽視這一規則。Cloudflare 表示，他們每天面

告別傳統爬蟲！Firecrawl Extract無需編寫代碼，輕鬆抓取任何網站的數據

在數據採集的傳統方法中，網絡爬蟲是許多開發者的必備工具。然而，這一時代或許已經走到盡頭。Firecrawl Extract推出了全新的數據提取方式，讓用戶只需通過簡單的自然語言提示，就能輕鬆獲取任何網站的數據，徹底省去手動編寫爬蟲腳本的繁瑣步驟。智能化數據提取Firecrawl Extract憑藉其創新的自然語言處理技術，能夠將整個網站或單一頁面的數據轉換爲結構化信息。無論用戶需要提取的是簡單的一頁內容，還是整個網站的大量數據，該工具都能輕鬆應對，併爲開發者節省了大量的時間和

繼紐約時報，CNN、路透社等主流媒體開始屏蔽 OpenAI 網絡爬蟲 GPTBot

["紐約時報、CNN、路透社等新聞媒體開始屏蔽 OpenAI 的 GPTBot 網絡爬蟲，限制它繼續獲取這些媒體的內容。","GPTBot 可能會掃描網頁內容來幫助改進 OpenAI 的人工智能模型，如 ChatGPT。","媒體擔心內容被 AI 訓練，但 Google 建議可自動獲取媒體內容，除非它們選擇退出。"]

OpenAI 推出網絡爬蟲 GPTBot，引發網站抵禦潮：信息被爬走就很可能意味着永遠無法刪除

["OpenAI 發佈了網站爬蟲規範，引發網站加強防禦措施。","OpenAI 的網絡爬蟲 GPTBot 可能已經潛伏在網上一段時間，有人質疑其數據收集行爲。","網站所有者可以通過 robots.txt 文件拒絕 GPTBot 的訪問，但並非所有機器人都會遵守規則。"]