非營利組織**知識共享組織(Creative Commons, CC)**近日公開表達了對“**付費爬取”(Pay-for-Crawl)**技術的謹慎支持,該技術是一種在機器(如人工智能網絡爬蟲)訪問網站內容時自動支付報酬的系統。

今年早些時候,CC 宣佈了“開放人工智能生態系統”的框架,旨在爲控制數據的公司和利用數據進行訓練的 AI 提供商之間,提供共享數據集的法律和技術支持。CC 最爲人所知的是其在許可協議方面的貢獻,該協議允許創作者在保留版權的同時分享作品。

黑客 泄露

 “付費爬取”的必要性

Cloudflare 等公司爲代表的“付費爬取”理念,要求 AI 機器人每次抓取網站內容進行模型訓練和更新時,都向網站付費。

CC 在其博客文章中指出:“如果負責任地實施,付費抓取可以成爲網站維持其內容創作和分享的一種方式……使內容能夠公開訪問,否則這些內容可能無法分享,或者會消失在更加嚴格的付費牆之後。”

這一轉變的背景是 AI 對傳統出版商的“毀滅性打擊”。過去,網站允許谷歌等搜索引擎爬取內容以換取搜索流量和點擊量。然而,隨着 AI 聊天機器人的普及,消費者直接從 AI 獲得答案,導致網站搜索流量銳減,嚴重影響了出版商的利潤。

“付費爬取”系統爲小型網絡出版商提供了一種從 AI 衝擊中恢復過來的方式,尤其對於那些沒有足夠實力與 OpenAI、谷歌、Meta 等巨頭談判一次性內容合作協議的出版商而言,其操作性更強。目前,OpenAI 已與康泰納仕集團、阿克塞爾·施普林格集團,以及 Perplexity 與甘尼特集團等達成了多項重要合作。

 CC 的保留意見與負責任原則

儘管表示支持,CC 也提出了一些保留意見,指出此類系統可能導致網絡權力過於集中,並可能阻礙“研究人員、非營利組織、文化遺產機構、教育工作者和其他爲公共利益服務的機構”訪問內容。

因此,CC 提出了一系列負責任的“付費爬取”原則,包括:

  • 不應將付費爬蟲設置爲所有網站的默認設置

  • 應避免對整個網絡制定一刀切的規則

  • 系統應允許限速而非僅僅屏蔽,並保障公衆的訪問權限

  • 系統應具備開放性、互操作性,並採用標準化組件構建。

行業標準與參與者

除 Cloudflare 外,微軟也在爲出版商構建 AI 市場,而 ProRata.aiTollBit 等小型初創公司也開始涉足這一領域。

另一個組織 RSL Collective 發佈了名爲“真正簡單的許可(Really Simple Licensing, RSL)”的新標準,規定了網站爬蟲可訪問的部分。CC 宣佈支持 RSL,並將其納入其更廣泛的 AI 時代技術和工具開發項目。目前,RSL 已獲得 Cloudflare、Akamai、Fastly 等公司的採用,並得到雅虎、Ziff Davis、O'Reilly Media 等公司的支持。