正文

維基百科發佈 AI 訓練數據集，旨在阻止爬蟲抓取

發布於AI新閒資訊

時間 :Apr 18, 2025

閱讀 :1分鐘

維基百科近日宣佈，將通過與谷歌旗下的數據科學社區平臺 Kaggle 的合作，發佈一份專門優化用於人工智能模型訓練的數據集。這一舉措旨在減少 AI 開發者通過爬蟲程序抓取維基百科數據的行爲，保護平臺的帶寬和服務器資源。

維基百科

該數據集的內容包括英語和法語的結構化維基百科信息，具有良好的機器可讀性，便於 AI 開發者進行建模、微調和數據分析。維基媒體基金會表示，這份數據集以開放許可的方式發佈，內容涵蓋了研究摘要、簡短描述、圖像鏈接、信息框數據以及文章的各個部分，但不包括參考文獻和音頻文件等非文本元素。

維基媒體希望，Kaggle 用戶能夠通過這份數據集，獲得更爲便利的獲取信息的方式，從而避免直接抓取原始文章文本所帶來的技術挑戰。隨着越來越多的自動化 AI 程序對維基百科的訪問，爬蟲抓取行爲正在給維基百科的服務器帶來沉重負擔。

Kaggle 的合作伙伴關係負責人布倫達・弗林表示，Kaggle 非常高興能夠成爲維基媒體基金會數據的承載平臺。她指出，Kaggle 致力於保持數據的可訪問性、可用性和實用性，以服務更廣泛的機器學習社區。

通過此次合作，維基百科不僅保護了自身資源，也爲小型企業和獨立數據科學家提供了更爲便利的訪問途徑，推動了人工智能的發展和應用。

劃重點:
🌐 維基百科與 Kaggle 合作，發佈英語和法語的結構化數據集，旨在減少 AI 爬蟲抓取行爲。
🗂️ 數據集包括研究摘要、簡短描述和圖像鏈接等，開放許可，便於 AI 開發者使用。
🔧 Kaggle 承諾維護數據的可訪問性，支持小企業和獨立數據科學家的研究。

維基百科創始人對AI說"不"：幻覺問題仍然嚴重，編輯工作還得人來幹

維基百科聯合創始人吉米·威爾士直言，當前AI的“幻覺”問題依舊嚴重，看似自信卻常輸出虛假信息，尚不可信，因此禁止其直接編輯詞條。但他認爲AI可作爲“鬧鐘”發揮提醒輔助作用。

維基百科正式禁止使用大語言模型生成或重寫文章內容，終結了此前對AI的模糊態度。新政策獲得志願者編輯壓倒性支持，旨在維護內容可靠性，避免AI生成不準確或抄襲內容。

維基百科3月26日通過投票，正式實施新編輯政策，明確禁止用戶直接使用大語言模型生成或重寫文章內容。此舉旨在維護內容準確性，強化人類編輯主權，將此前模糊的表述升級爲嚴格禁令。

維基百科創始人吉米・威爾士批評馬斯克的Grokipedia是“滑稽的模仿品”，認爲其註定失敗。馬斯克在X上以“著名的臨終遺言”迴應。威爾士強調維基百科堅守中立原則，否認相關指控。

維基百科創始人吉米・威爾士在採訪中迴應AI生成內容的興起，特別提及馬斯克的Grokipedia。他表示不擔心AI內容，因其常含錯誤，並強調維基百科依賴志願者人工撰寫、編輯與審覈，以保障信息準確，目前不考慮引入AI直接參與內容創作。

智啟未來，您的人工智能解決方案智庫