Meta 涉嫌版權侵權:使用 LibGen 數據集訓練 AI 並刪除版權信息

Meta 正面臨一起涉及版權侵權的訴訟，原告律師稱，Meta 首席執行官馬克·扎克伯格批准公司使用盜版電子書和文章的數據集來訓練其 Llama AI 模型。該案件是針對多家科技巨頭的衆多版權訴訟之一，這些公司被指控在未獲授權的情況下使用受版權保護的作品進行 AI 模型訓練。

在週三晚間提交給美國加利福尼亞北區地方法院的文件中，原告重申了 Meta 去年年底的證詞，證詞中透露扎克伯格批准使用名爲 LibGen 的數據集來進行與 Llama 相關的訓練。LibGen 被視爲一個“鏈接聚合器”，提供大量受版權保護的學術出版物。儘管該網站因侵犯版權而多次遭到起訴和勒令關閉，但它依然持續提供來自 Cengage Learning、McGraw Hill 等大型出版商的作品。

全息投影機器人設計 (3)

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

文件中提到，Meta 內部有員工承認，LibGen 是一個“我們知道是盜版的數據集”，並表示其使用可能會對公司與監管機構的談判地位產生負面影響。尤其令人關注的是，Meta 工程師 Nikolay Bashlykov 被指控編寫腳本，刪除 LibGen 電子書中的版權信息，包括“版權”和“致謝”字樣。Meta 還據稱從科學期刊文章中刪除了版權標記和源元數據，以掩蓋其侵權行爲。

更具爭議的是，Meta 被指控通過 torrenting 方式下載 LibGen 內容，並幫助傳播這些被盜版權的文件。torrenting 是一種在網絡上分發文件的方式，其中下載者在同時上傳文件的同時共享內容。原告律師表示，Meta 通過參與 torrenting 實際上實施了另一種形式的版權侵權行爲。儘管 Meta 工程師對此提出保留意見，認爲這一行爲不合法，Meta 依然在生成 AI 負責人 Ahmad Al-Dahle 的支持下繼續進行這一行爲。

這些指控顯然與《紐約時報》去年4月的報道相符，後者曾暗示 Meta 在收集人工智能數據時採取了偷工減料的做法。據報道，Meta 曾僱傭非洲承包商彙總書籍摘要，並曾考慮收購出版商西蒙舒斯特。然而，Meta 高管認爲談判版權許可需要過長時間，合理使用原則成爲了他們的主要辯護理由。

目前，案件的審理尚未有定論，且僅涉及 Meta 早期的 Llama 模型。儘管法院曾在2023年駁回了與 AI 相關的幾項版權訴訟，認爲原告未能證明侵權行爲，但本案中的指控仍然可能對 Meta 產生不利影響。主審法官文斯·查布里亞在週三的命令中指出，他駁回了 Meta 請求刪除大部分文件的請求，表示這些文件的刪除顯然是爲了避免負面宣傳，而非保護敏感商業信息。

此次案件將繼續引發關於科技公司如何使用版權作品訓練 AI 模型的廣泛討論，特別是在合理使用與版權保護之間的界限問題上。

Meta 涉嫌版權侵權:使用 LibGen 數據集訓練 AI 並刪除版權信息

相關推薦

多出版商控告 Meta：AI 訓練或涉嫌侵權

德國法院裁定：AI 二創漫畫不一定侵權

AI訓練數據確權爭議升級:蘋果因開源項目關聯深陷“盜版書”侵權指控

《大英百科全書》起訴 OpenAI：指控其非法使用 10 萬篇文章訓練 AI

普利策得主領銜起訴六大AI巨頭！集體訴訟直指“盜版書訓練模型”，索賠或達百億級

Meta 涉嫌版權侵權:使用 LibGen 數據集訓練 AI 並刪除版權信息

相關推薦

​多出版商控告 Meta：AI 訓練或涉嫌侵權

德國法院裁定：AI 二創漫畫不一定侵權

AI訓練數據確權爭議升級:蘋果因開源項目關聯深陷“盜版書”侵權指控

​《大英百科全書》起訴 OpenAI：指控其非法使用 10 萬篇文章訓練 AI

普利策得主領銜起訴六大AI巨頭！集體訴訟直指“盜版書訓練模型”，索賠或達百億級

多出版商控告 Meta：AI 訓練或涉嫌侵權

《大英百科全書》起訴 OpenAI：指控其非法使用 10 萬篇文章訓練 AI