Reddit起訴Anthropic非法抓取數據訓練Claude:要求刪除所有含Reddit內容的AI模型

Reddit已在舊金山高等法院對人工智能公司Anthropic提起訴訟，指控其未經許可系統性抓取Reddit帖子訓練Claude語言模型，違反平臺用戶協議和商業使用規定。

這起訴訟凸顯了AI訓練數據獲取的法律爭議，以及內容平臺與AI公司之間日益緊張的關係。Reddit要求法院強制Anthropic刪除所有包含Reddit內容的AI模型和數據集，並禁止其將基於Reddit數據訓練的AI模型用於商業用途。

技術保護措施遭繞過

根據訴訟文件，Anthropic無視Reddit的用戶協議規定，繞過了robots.txt文件和基於IP的速率限制等技術保障措施。更關鍵的是，Anthropic從未連接Reddit的合規API——該工具會在用戶刪除帖子時通知被許可方，確保相關內容從訓練系統中移除。

訴訟顯示，Anthropic公開承認在研究中使用Reddit數據，甚至將40多個子版塊（包括r/science、r/IAmA和r/relationship_advice）列爲訓練Claude的"高質量"數據來源。Reddit稱，這些數據收集完全未獲得同意，違反了平臺的保護措施。

Anthropic、克勞德

最具爭議的是Anthropic發言人與實際行爲的矛盾。2024年7月，Anthropic發言人聲稱Reddit自5月起就被列入ClaudeBot黑名單。然而，Reddit內部日誌顯示，在該聲明發布後的幾個月內，Anthropic機器人對Reddit服務器的訪問次數仍超過10萬次。

這一發現直接質疑了Anthropic的公開承諾，成爲Reddit訴訟的關鍵證據。

Reddit在訴訟中強調，Anthropic的行爲既威脅公司商業利益，也危及用戶隱私。在缺乏許可證或合規API連接的情況下，無法確認已刪除或敏感帖子是否仍嵌入在Claude模型中。

"如果Anthropic等第三方在沒有許可協議的情況下抓取Reddit內容，Reddit用戶將無法享受公共內容政策和隱私政策的任何保護，部分原因是用戶無法知道哪些第三方抓取並獲取了他們的數據，"訴訟文件指出。

這一論點觸及了AI訓練數據使用的核心問題:用戶是否有權控制其發佈內容的後續使用，特別是在商業AI系統中的應用。

Reddit特別指出其他AI公司選擇了不同的合作路徑。據報道，谷歌每年向Reddit支付6000萬美元獲得訓練數據授權，這一合作在近幾個月內顯著提升了Reddit在谷歌搜索中的曝光度。

這種對比突出了當前AI行業在數據獲取方面的分化:一些公司選擇付費獲得合法授權，而另一些則試圖通過技術手段繞過限制。

Reddit的訴訟指控Anthropic違約和不正當競爭，尋求賠償許可收入損失。更重要的是，Reddit要求法院發佈禁令，阻止Anthropic繼續將Claude或任何基於Reddit數據訓練的AI模型用於商業用途。

如果Reddit勝訴，這可能爲其他內容平臺對AI公司的類似訴訟開創先例，重新定義AI訓練數據的合法獲取邊界。此案結果將直接影響AI行業的數據使用實踐和成本結構。

當前的爭議反映了AI快速發展與傳統版權和隱私保護機制之間的根本性衝突，Reddit訴Anthropic案或將成爲確定這一平衡點的關鍵判例。