一項新的研究揭示,AI模型正逐漸失去對其網絡訓練數據的訪問權限。這項研究由數據來源倡議組織(Data Provenance Initiative)進行,顯示從2023年4月到2024年4月,AI訓練數據中完全被屏蔽的內容比例從約1%上升至5-7%。這一趨勢可能導致未來的AI模型只能學習到較少、更有偏見和過時的信息。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這項研究分析了14,000個網絡域名的robots.txt文件和使用條款,這些域名是流行AI訓練數據集(如C4、RefinedWeb和Dolma)的來源。
研究發現,新聞網站、論壇和社交媒體平臺是限制AI數據訪問的主要來源,其中新聞網站的屏蔽比例從3%激增至45%。這意味着高質量的新聞內容可能在AI訓練數據中佔比減少,取而代之的是低質量的企業和電商網站內容。
這一現象對AI開發者來說是一個挑戰,因爲高質量的數據對訓練優秀模型至關重要。然而,高質量內容提供者也可能通過與AI公司達成許可協議,找到新的收入來源。
Meta的首席執行官馬克·扎克伯格都表示,獲取足夠的版權數據以訓練一個優秀的AI模型幾乎是不可能或非常昂貴的。
如果沒有公平使用的裁定,這種情況可能會繼續加劇。OpenAI近期已與多家出版商達成了數百萬美元的交易,以獲取其內容用於實時顯示和AI訓練。預計其他公司也將效仿這一做法,除非法律判決發生重大變化。
劃重點:
🛑 數據訪問限制加劇:從2023年到2024年,AI訓練數據中被屏蔽的內容比例顯著增加,新聞網站的屏蔽比例從3%升至45%。
📉 高質量數據減少:高質量新聞內容在AI訓練數據中的佔比下降,可能被低質量的企業和電商內容取代。
💸 高成本與許可問題:獲取足夠的數據進行AI訓練成本高昂,OpenAI和Meta面臨挑戰,高質量內容提供者可能通過許可協議找到新的收入來源。
