在人工智能的高速發展背後,一個嚴峻的問題正浮出水面——數據獲取的難度正日益增加。MIT等機構的最新研究發現,曾經輕易獲取的網頁數據,現在正變得越發難以訪問,這對AI的訓練和研究構成了重大挑戰。

研究人員發現,多個開源數據集如C4、RefineWeb、Dolma等,它們所爬取的網站正在迅速收緊其許可協議。這不僅影響商業AI模型的訓練,也對學術和非營利組織的研究造成了阻礙。

image.png

這項研究由來自MIT Media Lab、Wellesley學院、AI初創公司Raive等機構的4位團隊主管共同進行。他們指出,數據的限制正在激增,且許可的不對稱性與不一致性問題日益凸顯。

研究團隊使用了機器人排除協議(Robots Exclusion Protocol, REP)和網站的服務條款(Terms of Service, ToS)作爲研究方法。他們發現,即使是OpenAI這樣的大型AI公司的爬蟲,也面臨着越來越嚴格的限制。

image.png

通過SARIMA模型預測,未來無論是通過robots.txt還是ToS,網站對數據的限制都將持續增加。這表明,開放網絡數據的獲取將變得更加困難。

研究還發現,網絡上爬取的數據與AI模型的訓練用途並不一致,這對模型對齊、數據收集實踐以及版權都可能造成影響。

研究團隊呼籲需要更靈活的協議來反映網站所有者的意願,將有許可和不被允許的用例分開,並與服務條款同步。同時,他們希望AI開發人員能夠使用開放網絡上的數據進行訓練,並希望未來的法律能夠支持這一點。

論文地址:https://www.dataprovenance.org/Consent_in_Crisis.pdf