近年來,隨着人工智能技術的飛速發展,大型 AI 模型的訓練數據來源問題日益成爲業界關注的焦點。許多知名企業在構建其 AI 模型時,似乎都選擇了使用大量未授權的版權內容作爲數據。這一 “祕密配方” 引發了激烈的法律爭論,並將硅谷的科技巨頭們推上了風口浪尖。

2023年,《紐約時報》首次向 OpenAI 和微軟提起訴訟,正式揭開了這場法律之戰的序幕。不久後,Meta 因其 Llama 模型涉嫌使用盜版書籍而面臨集體訴訟,而 Anthropic 也因爲其 Claude 模型的訓練數據受到指控。所有主要玩家幾乎都面臨着法律挑戰,究竟在未經授權的情況下,使用受版權保護的作品作爲 AI 訓練數據,是否屬於 “合理使用”?

版權

2025年6月,法院在對 Anthropic 案的裁決中給出了一個重要信號:儘管模型訓練本身可能被視爲一種高度 “變革性” 的使用,但如果數據來源涉及盜版,基本上就無法逃避侵權的指控。預計 Anthropic 可能面臨高達7500億美元的賠償,這一消息令所有 AI 公司心驚膽戰。

爲了滿足對數據的需求,各大模型公司採用了多種 “創意” 方式來獲取數據,有的甚至遊走在法律邊緣。例如,OpenAI 利用網絡爬蟲廣泛抓取網絡內容,甚至在抓取過程中清除版權信息;而在高質量文本資源逐漸枯竭後,AI 公司又轉向視頻和紙書等其他格式的數據,利用技術手段進行提取。

此外,有些公司甚至選擇了直接使用盜版書籍。例如,Meta 在訓練 Llama 模型時,就被指控使用來自 “影子圖書館” 的盜版書籍。與此相反,蘋果等保守派企業則選擇通過合法授權和自有數據來規避法律風險。

在法律訴訟的推進中,版權方的策略逐漸轉變,焦點不再是 AI 如何使用數據,而是數據的獲取是否合法。法院的裁決表明,雖然 AI 的訓練行爲可能不構成直接侵權,但盜版資源的使用將受到嚴厲打擊。

如今,AI 行業面臨着一場前所未有的版權戰爭,如何在法律邊緣遊走並實現創新,成爲了科技巨頭們亟需解決的問題。