哈佛大學週四宣佈,將公開一份包含近百萬本公共領域圖書的高質量數據集,任何人都可以利用它來訓練大型語言模型和其他 AI 工具。 這份數據集由哈佛大學新成立的機構數據倡議 (Institutional Data Initiative) 創建,並獲得了微軟和 OpenAI 的資金支持。 其中收錄的圖書均是 Google 圖書項目掃描的、不再受版權保護的作品。

該數據集規模約爲用於訓練 Meta Llama 等 AI 模型的臭名昭著的 Books3數據集的五倍。 它涵蓋了各種類型、年代和語言,既有莎士比亞、查爾斯·狄更斯和但丁的經典之作,也有鮮爲人知的捷克數學教科書和威爾士語袖珍詞典。 機構數據倡議的執行主任格雷格·萊珀特表示,該項目的目的是通過讓包括 AI 行業的小型參與者和個人研究人員在內的公衆,能夠獲得通常只有老牌科技巨頭纔有資源組裝的高度提煉和精選的內容存儲庫,從而“創造公平的競爭環境”。 他說:“它經過了嚴格的審查。”

圖書館 書房 閱讀 (2)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

萊珀特認爲,新的公共領域數據庫可以與其他許可材料結合使用,以構建人工智能模型。 他說:“我認爲它有點像 Linux 如何成爲世界上許多領域的基礎操作系統一樣。” 他指出,公司仍然需要使用額外的訓練數據來使其模型與競爭對手的模型區分開來。

微軟知識產權副總裁兼副總法律顧問伯頓·戴維斯強調,該公司對該項目的支持符合其關於爲 AI 初創公司創建“可訪問數據池”的價值的廣泛信念,這些數據池“以公衆利益爲導向”。 換句話說,微軟不一定計劃將其自身模型中使用的所有 AI 訓練數據替換爲公共領域的替代方案,例如哈佛新數據庫中的圖書。 “我們使用公開可用的數據來訓練我們的模型,”戴維斯說。

隨着數十起關於使用受版權保護的數據訓練 AI 的訴訟正在法院進行審理,AI 工具未來的構建方式也懸而未決。 如果 AI 公司勝訴,它們將能夠繼續抓取互聯網,而無需與版權所有者簽訂許可協議。 但如果它們敗訴,AI 公司可能會被迫徹底改革其模型的製作方式。 像哈佛數據庫這樣的項目正以前所未有的速度向前推進,它們假設——無論發生什麼——人們都會對公共領域的數據集有需求。

除了大量的圖書之外,機構數據倡議還與波士頓公共圖書館合作掃描數百萬篇來自不同報紙的公共領域文章。該機構表示,它願意在未來建立類似的合作關係。圖書數據集的確切發佈方式尚未確定。 機構數據倡議已要求 Google 共同參與公共分發,但這家搜索巨頭尚未公開同意託管該數據集,儘管哈佛大學表示對此持樂觀態度。(Google 沒有迴應 WIRED 的置評請求。)

無論 IDI 的數據集如何發佈,它都將加入一系列類似的項目、初創公司和倡議,這些項目旨在爲公司提供大量高質量的 AI 訓練材料,而無需承擔遇到版權問題的風險。 Calliope Networks 和 ProRata 等公司已經出現,它們發佈許可證並設計補償計劃,旨在讓創作者和權利持有者因提供 AI 訓練數據而獲得報酬。

此外,還有其他新的公共領域項目。去年春天,法國 AI 初創公司 Pleis 推出了自己的公共領域數據集 Common Corpus,據項目協調員皮埃爾-卡爾·朗萊斯稱,該數據集包含約300萬到400萬本圖書和期刊合集。在法國文化部的支持下,Common Corpus 僅本月就在開源 AI 平臺 Hugging Face 上被下載了60,000多次。上週,Pleis 宣佈將發佈其首批使用該數據集訓練的大型語言模型,朗萊斯告訴 WIRED,這些模型構成“有史以來首批完全使用開放數據訓練並符合 [歐盟] AI 法案的模型”。

目前,創建類似圖像數據集的工作也在進行中。 AI 初創公司 Spawning 於今年夏天發佈了名爲 Source.Plus 的數據集,其中包含來自 Wikimedia Commons 以及各種博物館和檔案館的公共領域圖像。 長期以來,一些重要的文化機構(例如大都會藝術博物館)也以獨立項目的形式向公衆開放了自己的檔案館。

Stability AI 的前高管埃德·牛頓-雷克斯 (Ed Newton-Rex) 現在運營一家認證符合道德規範的 AI 工具的非營利組織。他表示,這些數據集的興起表明,無需竊取受版權保護的材料即可構建高性能和高質量的 AI 模型。 OpenAI 此前曾告訴英國立法者,如果不使用受版權保護的作品,就“不可能”創建像 ChatGPT 這樣的產品。 “像這樣的大型公共領域數據集進一步瓦解了一些 AI 公司用來爲抓取受版權保護的作品以訓練其模型辯解的‘必要性辯護’,”牛頓-雷克斯說。

但他仍然對 IDI 和類似的項目是否真的會改變訓練現狀持保留態度。 “這些數據集只有在與其他許可數據結合使用以取代抓取的受版權保護的作品時,纔會產生積極影響。 如果它們只是添加到混合數據集中,成爲也包含世界各地創作者未經許可的畢生心血的數據集的一部分,它們將主要使 AI 公司受益,”他說。