阻止AI模型獲取訓練數據的網絡域名數量快速增加

一項新的研究揭示，AI模型正逐漸失去對其網絡訓練數據的訪問權限。這項研究由數據來源倡議組織（Data Provenance Initiative）進行，顯示從2023年4月到2024年4月，AI訓練數據中完全被屏蔽的內容比例從約1%上升至5-7%。這一趨勢可能導致未來的AI模型只能學習到較少、更有偏見和過時的信息。

代碼互聯網電腦

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

這項研究分析了14，000個網絡域名的robots.txt文件和使用條款，這些域名是流行AI訓練數據集（如C4、RefinedWeb和Dolma）的來源。

研究發現，新聞網站、論壇和社交媒體平臺是限制AI數據訪問的主要來源，其中新聞網站的屏蔽比例從3%激增至45%。這意味着高質量的新聞內容可能在AI訓練數據中佔比減少，取而代之的是低質量的企業和電商網站內容。

這一現象對AI開發者來說是一個挑戰，因爲高質量的數據對訓練優秀模型至關重要。然而，高質量內容提供者也可能通過與AI公司達成許可協議，找到新的收入來源。

Meta的首席執行官馬克·扎克伯格都表示，獲取足夠的版權數據以訓練一個優秀的AI模型幾乎是不可能或非常昂貴的。

如果沒有公平使用的裁定，這種情況可能會繼續加劇。OpenAI近期已與多家出版商達成了數百萬美元的交易，以獲取其內容用於實時顯示和AI訓練。預計其他公司也將效仿這一做法，除非法律判決發生重大變化。

劃重點:

🛑 數據訪問限制加劇:從2023年到2024年，AI訓練數據中被屏蔽的內容比例顯著增加，新聞網站的屏蔽比例從3%升至45%。
📉 高質量數據減少:高質量新聞內容在AI訓練數據中的佔比下降，可能被低質量的企業和電商內容取代。
💸 高成本與許可問題:獲取足夠的數據進行AI訓練成本高昂，OpenAI和Meta面臨挑戰，高質量內容提供者可能通過許可協議找到新的收入來源。

阻止AI模型獲取訓練數據的網絡域名數量快速增加

相關推薦

美國放行GPT-5.6，OpenAI多款重磅模型本週上線

美國政府鬆綁GPT-5.6：商務部正式放行，OpenAI本週全面推出

強強聯手：SpaceXAI 與 Cursor 聯手打造 AI 模型，性能或直追 GPT-5.5

你的數據正在“餵養”AI：谷歌隱私設置靜默更新，如何守護個人信息？

復旦期末開卷新高度：學生出題反向“調教”AI， 4 人斬獲滿分