Meta 正面臨一起涉及版權侵權的訴訟,原告律師稱,Meta 首席執行官馬克·扎克伯格批准公司使用盜版電子書和文章的數據集來訓練其 Llama AI 模型。該案件是針對多家科技巨頭的衆多版權訴訟之一,這些公司被指控在未獲授權的情況下使用受版權保護的作品進行 AI 模型訓練。

在週三晚間提交給美國加利福尼亞北區地方法院的文件中,原告重申了 Meta 去年年底的證詞,證詞中透露扎克伯格批准使用名爲 LibGen 的數據集來進行與 Llama 相關的訓練。LibGen 被視爲一個“鏈接聚合器”,提供大量受版權保護的學術出版物。儘管該網站因侵犯版權而多次遭到起訴和勒令關閉,但它依然持續提供來自 Cengage Learning、McGraw Hill 等大型出版商的作品。

全息投影 機器人設計 (3)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

文件中提到,Meta 內部有員工承認,LibGen 是一個“我們知道是盜版的數據集”,並表示其使用可能會對公司與監管機構的談判地位產生負面影響。尤其令人關注的是,Meta 工程師 Nikolay Bashlykov 被指控編寫腳本,刪除 LibGen 電子書中的版權信息,包括“版權”和“致謝”字樣。Meta 還據稱從科學期刊文章中刪除了版權標記和源元數據,以掩蓋其侵權行爲。

更具爭議的是,Meta 被指控通過 torrenting 方式下載 LibGen 內容,並幫助傳播這些被盜版權的文件。torrenting 是一種在網絡上分發文件的方式,其中下載者在同時上傳文件的同時共享內容。原告律師表示,Meta 通過參與 torrenting 實際上實施了另一種形式的版權侵權行爲。儘管 Meta 工程師對此提出保留意見,認爲這一行爲不合法,Meta 依然在生成 AI 負責人 Ahmad Al-Dahle 的支持下繼續進行這一行爲。

這些指控顯然與《紐約時報》去年4月的報道相符,後者曾暗示 Meta 在收集人工智能數據時採取了偷工減料的做法。據報道,Meta 曾僱傭非洲承包商彙總書籍摘要,並曾考慮收購出版商西蒙舒斯特。然而,Meta 高管認爲談判版權許可需要過長時間,合理使用原則成爲了他們的主要辯護理由。

目前,案件的審理尚未有定論,且僅涉及 Meta 早期的 Llama 模型。儘管法院曾在2023年駁回了與 AI 相關的幾項版權訴訟,認爲原告未能證明侵權行爲,但本案中的指控仍然可能對 Meta 產生不利影響。主審法官文斯·查布里亞在週三的命令中指出,他駁回了 Meta 請求刪除大部分文件的請求,表示這些文件的刪除顯然是爲了避免負面宣傳,而非保護敏感商業信息。

此次案件將繼續引發關於科技公司如何使用版權作品訓練 AI 模型的廣泛討論,特別是在合理使用與版權保護之間的界限問題上。