維基百科近日宣佈,將通過與谷歌旗下的數據科學社區平臺 Kaggle 的合作,發佈一份專門優化用於人工智能模型訓練的數據集。這一舉措旨在減少 AI 開發者通過爬蟲程序抓取維基百科數據的行爲,保護平臺的帶寬和服務器資源。

維基百科

該數據集的內容包括英語和法語的結構化維基百科信息,具有良好的機器可讀性,便於 AI 開發者進行建模、微調和數據分析。維基媒體基金會表示,這份數據集以開放許可的方式發佈,內容涵蓋了研究摘要、簡短描述、圖像鏈接、信息框數據以及文章的各個部分,但不包括參考文獻和音頻文件等非文本元素。

維基媒體希望,Kaggle 用戶能夠通過這份數據集,獲得更爲便利的獲取信息的方式,從而避免直接抓取原始文章文本所帶來的技術挑戰。隨着越來越多的自動化 AI 程序對維基百科的訪問,爬蟲抓取行爲正在給維基百科的服務器帶來沉重負擔。

Kaggle 的合作伙伴關係負責人布倫達・弗林表示,Kaggle 非常高興能夠成爲維基媒體基金會數據的承載平臺。她指出,Kaggle 致力於保持數據的可訪問性、可用性和實用性,以服務更廣泛的機器學習社區。

通過此次合作,維基百科不僅保護了自身資源,也爲小型企業和獨立數據科學家提供了更爲便利的訪問途徑,推動了人工智能的發展和應用。

劃重點:

🌐 維基百科與 Kaggle 合作,發佈英語和法語的結構化數據集,旨在減少 AI 爬蟲抓取行爲。  

🗂️ 數據集包括研究摘要、簡短描述和圖像鏈接等,開放許可,便於 AI 開發者使用。  

🔧 Kaggle 承諾維護數據的可訪問性,支持小企業和獨立數據科學家的研究。