近期一項由斯坦福大學、康乃爾大學及西維吉尼亞大學研究人員發表的論文顯示,Meta 的 Llama3.1AI 模型能夠逐字重現大量受版權保護的書籍內容,這爲這家科技巨頭帶來了潛在的鉅額法律風險。研究指出,Llama3.170B 模型在測試中能夠重現《哈利波特:神祕的魔法石》高達42% 的文本內容,遠超第一代 Llama 模型的4.4%。
人工智能模型,如 OpenAI 的 ChatGPT 和 Meta 的 Llama,通常通過海量數據訓練,旨在識別並生成新的模式。然而,該研究的關鍵發現是,Meta 的 Llama 模型似乎並非僅僅學習語言模式,而是能夠近乎“完整地記住”某些書籍,例如《哈利波特》和《1984》。斯坦福技術法律專家馬克·萊姆利表示,如果 AI 能夠生成其訓練數據的完整摘錄,那麼它就不再被視爲基於學習的“變革性作品”,而更像是一個包含版權作品的“巨型 .ZIP 文件”,用戶可以隨意複製。

版權之爭新焦點:逐字重現 VS. 學習模式
在測試 OpenAI、DeepSeek 和微軟等公司的 AI 模型時,萊姆利的研究團隊發現 Meta 的 Llama 是唯一一款能夠準確複述書籍內容的模型。除了《哈利波特》系列的首部作品,該模型還展現出對 F·斯科特·菲茨傑拉德的《了不起的蓋茨比》和喬治·奧威爾的《1984》的顯著記憶能力。
Meta 使用受版權保護的材料訓練 AI 備受爭議。該公司目前正面臨多起版權訴訟,其中包括知名作家(如喜劇演員莎拉·西爾弗曼)提起的訴訟,指控 Meta 的模型基於非法獲取的“Books3”數據集進行訓練,該數據集包含近20萬份受版權保護的出版物。據法庭文件顯示,一名 Meta 工程師在下載種子文件時曾表示“用(Meta 旗下的)公司筆記本電腦下載種子,感覺不對勁”。
律師萊姆利估計,如果“Books3”數據集中的“僅有”3% 的內容被認定爲侵權,Meta 可能面臨近10億美元的法定賠償,這還不包括利潤分成。如果侵權比例更高,Meta 潛在的法律責任將更爲嚴峻。
法律專家立場轉變,Meta 拒絕迴應
值得注意的是,萊姆利本人曾代表 Meta 在之前的生成式 AI 版權訴訟(Kadrey v Meta Platforms)中進行辯護。然而,隨着他領導了這項關於 AI 模型記憶和重現受版權內容的研究,他於今年早些時候宣佈不再代理 Meta,以抗議該公司及其首席執行官馬克·扎克伯格的某些行爲。儘管他先前認爲 Meta 應該勝訴,但新研究結果似乎已改變了他的看法。
Meta 對萊姆利的最新研究發現拒絕置評。
