AI大模型的版權風暴：行業巨頭面臨7500億美元賠償風險

近年來，隨着人工智能技術的飛速發展，大型 AI 模型的訓練數據來源問題日益成爲業界關注的焦點。許多知名企業在構建其 AI 模型時，似乎都選擇了使用大量未授權的版權內容作爲數據。這一 “祕密配方” 引發了激烈的法律爭論，並將硅谷的科技巨頭們推上了風口浪尖。

2023年，《紐約時報》首次向 OpenAI 和微軟提起訴訟，正式揭開了這場法律之戰的序幕。不久後，Meta 因其 Llama 模型涉嫌使用盜版書籍而面臨集體訴訟，而 Anthropic 也因爲其 Claude 模型的訓練數據受到指控。所有主要玩家幾乎都面臨着法律挑戰，究竟在未經授權的情況下，使用受版權保護的作品作爲 AI 訓練數據，是否屬於 “合理使用”?

2025年6月，法院在對 Anthropic 案的裁決中給出了一個重要信號:儘管模型訓練本身可能被視爲一種高度 “變革性” 的使用，但如果數據來源涉及盜版，基本上就無法逃避侵權的指控。預計 Anthropic 可能面臨高達7500億美元的賠償，這一消息令所有 AI 公司心驚膽戰。

爲了滿足對數據的需求，各大模型公司採用了多種 “創意” 方式來獲取數據，有的甚至遊走在法律邊緣。例如，OpenAI 利用網絡爬蟲廣泛抓取網絡內容，甚至在抓取過程中清除版權信息;而在高質量文本資源逐漸枯竭後，AI 公司又轉向視頻和紙書等其他格式的數據，利用技術手段進行提取。

此外，有些公司甚至選擇了直接使用盜版書籍。例如，Meta 在訓練 Llama 模型時，就被指控使用來自 “影子圖書館” 的盜版書籍。與此相反，蘋果等保守派企業則選擇通過合法授權和自有數據來規避法律風險。

在法律訴訟的推進中，版權方的策略逐漸轉變，焦點不再是 AI 如何使用數據，而是數據的獲取是否合法。法院的裁決表明，雖然 AI 的訓練行爲可能不構成直接侵權，但盜版資源的使用將受到嚴厲打擊。

如今，AI 行業面臨着一場前所未有的版權戰爭，如何在法律邊緣遊走並實現創新，成爲了科技巨頭們亟需解決的問題。

上海市新增9款已完成登記生成式人工智能服務

上海市網信辦推動生成式AI創新與規範，依據相關管理辦法，有序開展服務備案。對於通過API等方式調用已備案模型、提供具有輿論屬性或社會動員能力的服務，相關部門也進行登記。目前，上海市新增9款完成登記的生成式人工智能服務。

AI大模型的版權風暴：行業巨頭面臨7500億美元賠償風險

相關推薦

中興押注AI手機！攜手字節推“豆包手機”，開放生態或迎多模型共存時代

Jan團隊發佈Jan-v2-VL-Max！30B多模態模型專攻長週期Agent任務，長序列執行穩超Gemini 2.5 Pro

上海市新增9款已完成登記生成式人工智能服務

字節跳動發佈 Seed Prover1.5:推動形式化數學推理的新進展

知乎2025年度 AI 產品榜單揭曉，豆包位居榜首