近日,人工智能公司 Anthropic 因其獨特的圖書數字化方式引發了公衆關注。據外媒 Ars Technica 報道,Anthropic 爲了訓練其 AI 助手 Claude,花費了數百萬美元購入大量實體圖書,並採用拆解和掃描的方式將其轉化爲數字文件。經過這一過程後,原書籍則被直接丟棄。

Claude2,Anthropic,人工智能,聊天機器人 
 克勞德

法庭文件披露,Anthropic 在2024年2月僱傭了 Tom Turvey,他曾參與 Google Books 項目的相關事務,負責 “獲取全世界的圖書”。這一舉動顯然是希望借鑑谷歌在圖書數字化過程中被法院認定爲合理使用的模式。

法官 William Alsup 在裁定中認爲,Anthropic 的掃描方式構成合理使用,因爲這些書籍是合法購買的,且在掃描後立即被銷燬,數字文件僅供內部使用,未向外傳播。他指出,這種轉換可以被視爲 “節省空間” 的數字化處理,具有合理使用中的 “轉化性” 特徵。不過,早期的盜版行爲對其合法性造成了一定影響。

AI 訓練需要大量優質文本數據,構建大語言模型需要將億萬詞語輸入神經網絡,以建立詞語與概念之間的關係。數據的質量直接影響模型輸出的準確性,因此,許多 AI 公司急需獲取高質量的出版內容,而通常不願意耗費時間進行授權談判。

美國的 “首次銷售原則” 允許購買者在擁有實體書後自行處理,使得購買圖書成爲一種合法的 “繞道方案”。然而,Anthropic 最初也選擇了繞過版權的問題,甚至有時使用盜版電子書。經過法律考慮後,該公司開始尋求更爲安全的替代方案,最終決定收購二手書,以獲取高質量的訓練文本並簡化授權過程。

爲了加快數字化進程,Anthropic 採用了 “破壞式掃描” 的方式,大量購入書籍,拆封、裁剪並整批掃描成機器可讀的 PDF 文件,整個過程耗資數百萬美元。儘管目前非破壞性掃描技術已經成熟,比如 Internet Archive 開發的可保留原書的數字化手段,但 Anthropic 選擇的方式仍然引起了廣泛的討論。

劃重點:

📚 Anthropic 花費數百萬美元購買實體書,並通過拆解和掃描將其轉化爲數字文件,用於訓練 AI 助手 Claude。  

⚖️ 法官裁定其掃描方式構成合理使用,因爲書籍是合法購買並在掃描後銷燬。  

🔄 AI 訓練需要大量優質文本數據,Anthropic 通過 “破壞式掃描” 加速圖書數字化進程。