哈佛大學近日宣佈,計劃發佈一個由近100萬本公共領域書籍組成的數據集,任何人都可以使用該數據集來訓練大型語言模型和其他人工智能工具。

此項目由哈佛大學新成立的機構數據計劃(Institutional Data Initiative)主導,並在微軟與OpenAI的資助下完成。該數據集包括來自谷歌Books項目的掃描書籍,涵蓋了莎士比亞、狄更斯、但丁等經典作品,以及一些晦澀的捷克數學教科書和威爾士詞典等內容。

AI助教 機器人

圖源備註:圖片由AI生成,圖片授權服務商Midjourney


這一數據集被稱爲“Books3數據集”的五倍大,旨在爲人工智能領域提供一個公平的競爭環境,讓公衆,特別是小型AI公司和個人研究人員,能夠訪問到通常只有大型科技公司才能收集到的高質量數據。格雷格•萊珀特(Greg Leppert)表示,該項目經過了嚴格篩選,內容精心策劃。

微軟副總裁伯頓·戴維斯強調,微軟支持該項目的目的是爲了爲初創公司創造一個“可訪問數據池”,並確保這些數據以“公衆利益爲基礎”進行管理。OpenAI的知識產權主管湯姆·魯賓也表示,該公司很高興能夠支持這一項目。

隨着關於AI使用版權數據的訴訟不斷增多,類似哈佛這一公共領域數據集的項目正在成爲AI訓練數據的一個重要來源。雖然目前還不清楚該數據集具體如何發佈,但它預計將爲企業提供大量高質量的數據,同時避免版權問題的困擾。

哈佛大學的“機構數據倡議”計劃不僅限於書籍,還與波士頓公共圖書館合作,掃描了數百萬篇公共領域的報紙文章,並計劃將來與更多合作伙伴進行類似合作。此外,哈佛也正在與谷歌合作,商討如何實現數據集的公共分發。

這一項目將加入多個類似的倡議,這些項目也承諾提供高質量的AI訓練材料,並且避免版權風險。未來,隨着更多公共領域數據集的出現,AI公司將有更多的選擇來訓練其模型,同時減少版權相關的法律風險。