最近,社交媒體平臺 Bluesky 面臨了一次重大的數據抓取事件。一位機器學習圖書管理員丹尼爾・範斯特林(Daniel van Strien)從 Bluesky 的 API 接口上抓取了超過一百萬條公開的用戶帖子,並將這些數據上傳至 AI 公司 Hugging Face。
該數據集包含了用戶的去中心化標識符(DID)以及一系列可以搜索特定用戶內容的功能。範斯特林表示,這個數據集的主要目的是用於語言模型和自然語言處理的開發,此外還包括社交媒體趨勢分析、內容審覈及發佈模式的研究。
這項數據抓取行動引發了廣泛關注,因爲 Bluesky 的用戶並未同意將其內容用於此類用途。雖然平臺並沒有明確禁止這種行爲,但它的火災 API 提供了一個 “聚合的、按時間順序排列的公共數據流”,包括帖子、點贊、關注、賬號變更等信息。因此,Bluesky 的內容在理論上是對第三方開發者開放的。
對此,Bluesky 的一位代表表示:“Bluesky 是一個開放和公共的社交網絡,就像互聯網上的其他網站一樣。
雖然 robots.txt 文件並不能總是阻止外部公司抓取這些網站,但情況是類似的。我們希望能夠找到一種方式,讓 Bluesky 用戶可以向外部組織 / 開發者傳達他們是否同意使用其數據,並希望外部組織尊重用戶的同意,我們正在積極討論如何實現這一目標。”
這起事件引起了用戶的擔憂,特別是許多用戶是因競爭平臺 X 的新 AI 訓練政策而轉投 Bluesky 的。值得注意的是,在該報道發佈後不久,範斯特林從 Hugging Face 上刪除了這個數據集。
他在 Bluesky 上表示:“我已從該倉庫中刪除 Bluesky 數據。雖然我想支持該平臺的工具開發,但我意識到這種做法違反了數據收集中的透明度和同意原則。對此,我深感抱歉。”
劃重點:
🌐1. 一位機器學習專家抓取了一百萬條 Bluesky 的公開帖子,並上傳至 AI 公司 Hugging Face,目的是用於機器學習研究。
🔍2. Bluesky 的用戶未曾同意使用其數據,平臺也並未明確禁止此類數據抓取行爲。
🚫3. 數據抓取事件引發用戶擔憂,範斯特林已將相關數據從 Hugging Face 刪除,並對此表示歉意。