近日,人工智能公司 Anthropic 以數百萬美元的鉅額投入,購買並 “拆解” 大量圖書,用於訓練其 AI 助手 Claude。這一舉動引發了公衆的廣泛關注和法律界的熱議。
根據外媒 Ars Technica 報道,Anthropic 爲了獲取訓練數據,採取了一種頗具爭議的方法。他們將大量實體書籍拆解、掃描成數字文件,然後直接銷燬原件。這一做法在法庭文件中被披露,法官 William Alsup 對此進行了裁定,認爲這種掃描方式構成合理使用。法官指出,Anthropic 所購買的書籍經過合法渠道獲取,並在掃描後即刻銷燬,數字文件僅用於內部使用,並未對外傳播。這一判決爲其他 AI 公司在獲取數據時提供了法律上的參考。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這一策略背後,Anthropic 希望借鑑谷歌書籍項目的成功經驗。Anthropic CEO 阿莫代伊曾提到,早期公司曾考慮使用盜版電子書,但出於法律風險的考慮,最終選擇了通過購買二手書籍的方式來獲取高質量的訓練文本。通過 “破壞式掃描”,公司能夠快速高效地將書籍轉化爲可供機器閱讀的 PDF 格式,從而爲 AI 模型的訓練提供充足的數據支持。
然而,非破壞性掃描技術其實已經相當成熟。比如,Internet Archive 就開發出能夠保留原書的數字化方式,OpenAI 和微軟近期也與哈佛大學圖書館合作,計劃數字化近百萬本公版書籍,確保這些書籍的原版依然得到妥善保存。與這些同行相比,Anthropic 的做法顯得有些激進,但無疑爲 AI 訓練領域開闢了新的思路。
隨着人工智能的發展,如何在尊重知識產權的前提下獲取訓練數據將成爲業界的持續話題。Anthropic 的嘗試雖然引起爭議,但也爲未來的 AI 發展提供了新的可能性。