Reddit已在舊金山高等法院對人工智能公司Anthropic提起訴訟,指控其未經許可系統性抓取Reddit帖子訓練Claude語言模型,違反平臺用戶協議和商業使用規定。

這起訴訟凸顯了AI訓練數據獲取的法律爭議,以及內容平臺與AI公司之間日益緊張的關係。Reddit要求法院強制Anthropic刪除所有包含Reddit內容的AI模型和數據集,並禁止其將基於Reddit數據訓練的AI模型用於商業用途。

技術保護措施遭繞過

根據訴訟文件,Anthropic無視Reddit的用戶協議規定,繞過了robots.txt文件和基於IP的速率限制等技術保障措施。更關鍵的是,Anthropic從未連接Reddit的合規API——該工具會在用戶刪除帖子時通知被許可方,確保相關內容從訓練系統中移除。

訴訟顯示,Anthropic公開承認在研究中使用Reddit數據,甚至將40多個子版塊(包括r/science、r/IAmA和r/relationship_advice)列爲訓練Claude的"高質量"數據來源。Reddit稱,這些數據收集完全未獲得同意,違反了平臺的保護措施。

Anthropic、克勞德

公開聲明與實際行爲存在矛盾

最具爭議的是Anthropic發言人與實際行爲的矛盾。2024年7月,Anthropic發言人聲稱Reddit自5月起就被列入ClaudeBot黑名單。然而,Reddit內部日誌顯示,在該聲明發布後的幾個月內,Anthropic機器人對Reddit服務器的訪問次數仍超過10萬次。

這一發現直接質疑了Anthropic的公開承諾,成爲Reddit訴訟的關鍵證據。

用戶隱私與商業利益雙重威脅

Reddit在訴訟中強調,Anthropic的行爲既威脅公司商業利益,也危及用戶隱私。在缺乏許可證或合規API連接的情況下,無法確認已刪除或敏感帖子是否仍嵌入在Claude模型中。

"如果Anthropic等第三方在沒有許可協議的情況下抓取Reddit內容,Reddit用戶將無法享受公共內容政策和隱私政策的任何保護,部分原因是用戶無法知道哪些第三方抓取並獲取了他們的數據,"訴訟文件指出。

這一論點觸及了AI訓練數據使用的核心問題:用戶是否有權控制其發佈內容的後續使用,特別是在商業AI系統中的應用。

對比:谷歌的合規路徑

Reddit特別指出其他AI公司選擇了不同的合作路徑。據報道,谷歌每年向Reddit支付6000萬美元獲得訓練數據授權,這一合作在近幾個月內顯著提升了Reddit在谷歌搜索中的曝光度。

這種對比突出了當前AI行業在數據獲取方面的分化:一些公司選擇付費獲得合法授權,而另一些則試圖通過技術手段繞過限制。

法律訴求與行業影響

Reddit的訴訟指控Anthropic違約和不正當競爭,尋求賠償許可收入損失。更重要的是,Reddit要求法院發佈禁令,阻止Anthropic繼續將Claude或任何基於Reddit數據訓練的AI模型用於商業用途。

如果Reddit勝訴,這可能爲其他內容平臺對AI公司的類似訴訟開創先例,重新定義AI訓練數據的合法獲取邊界。此案結果將直接影響AI行業的數據使用實踐和成本結構。

當前的爭議反映了AI快速發展與傳統版權和隱私保護機制之間的根本性衝突,Reddit訴Anthropic案或將成爲確定這一平衡點的關鍵判例。