社交媒體Bluesky用戶數據遭抓取：一百萬公開帖子被用於 AI 訓練

最近，社交媒體平臺 Bluesky 面臨了一次重大的數據抓取事件。一位機器學習圖書管理員丹尼爾・範斯特林（Daniel van Strien）從 Bluesky 的 API 接口上抓取了超過一百萬條公開的用戶帖子，並將這些數據上傳至 AI 公司 Hugging Face。

該數據集包含了用戶的去中心化標識符（DID）以及一系列可以搜索特定用戶內容的功能。範斯特林表示，這個數據集的主要目的是用於語言模型和自然語言處理的開發，此外還包括社交媒體趨勢分析、內容審覈及發佈模式的研究。

這項數據抓取行動引發了廣泛關注，因爲 Bluesky 的用戶並未同意將其內容用於此類用途。雖然平臺並沒有明確禁止這種行爲，但它的火災 API 提供了一個 “聚合的、按時間順序排列的公共數據流”，包括帖子、點贊、關注、賬號變更等信息。因此，Bluesky 的內容在理論上是對第三方開發者開放的。

對此，Bluesky 的一位代表表示:“Bluesky 是一個開放和公共的社交網絡，就像互聯網上的其他網站一樣。

雖然 robots.txt 文件並不能總是阻止外部公司抓取這些網站，但情況是類似的。我們希望能夠找到一種方式，讓 Bluesky 用戶可以向外部組織 / 開發者傳達他們是否同意使用其數據，並希望外部組織尊重用戶的同意，我們正在積極討論如何實現這一目標。”

這起事件引起了用戶的擔憂，特別是許多用戶是因競爭平臺 X 的新 AI 訓練政策而轉投 Bluesky 的。值得注意的是，在該報道發佈後不久，範斯特林從 Hugging Face 上刪除了這個數據集。

他在 Bluesky 上表示:“我已從該倉庫中刪除 Bluesky 數據。雖然我想支持該平臺的工具開發，但我意識到這種做法違反了數據收集中的透明度和同意原則。對此，我深感抱歉。”

劃重點:
🌐1. 一位機器學習專家抓取了一百萬條 Bluesky 的公開帖子，並上傳至 AI 公司 Hugging Face，目的是用於機器學習研究。
🔍2. Bluesky 的用戶未曾同意使用其數據，平臺也並未明確禁止此類數據抓取行爲。
🚫3. 數據抓取事件引發用戶擔憂，範斯特林已將相關數據從 Hugging Face 刪除，並對此表示歉意。

Moonshot AI發佈 Kimi Linear:線性注意力架構快6倍，開源 KDA 內核同步上線

國產團隊Moonshot AI發佈Kimi Linear架構技術報告，提出可替代完全注意力機制的混合線性架構。該架構在速度、內存效率和長上下文處理三方面實現突破，顯著降低KV緩存使用，兼具高效與性能優勢，被譽爲智能體時代注意力機制新起點。

全球首個真實物理環境多任務基準 RoboChallenge 發佈

RoboChallenge基準測試平臺正式發佈，由Dexmal原力靈機與Hugging Face聯合推出。作爲首個大規模、多任務、真實物理環境下的機器人操作評估標準，它解決了現有測試在真實性能驗證、標準化條件和公開可訪問性方面的難題，推動機器人視覺語言動作能力發展。

阿里通義7款模型屠榜Hugging Face!全模態大模型Qwen3-Omni登頂全球第一

9月28日，Hugging Face發佈新模型榜單，阿里通義7款模型包攬全球前十開源模型。其中全模態大模型Qwen3-Omni登頂，實現業內首創，音視頻能力獲32項開源最佳性能SOTA。該模型可處理文本、圖片、語音和視頻，模擬人類"聽、說、寫"能力，表現強勁。

社交媒體Bluesky用戶數據遭抓取：一百萬公開帖子被用於 AI 訓練

相關推薦

Moonshot AI發佈 Kimi Linear:線性注意力架構快6倍，開源 KDA 內核同步上線

Reddit起訴Perplexity AI:指控“工業級非法抓取”數百萬用戶評論

全球首個真實物理環境多任務基準 RoboChallenge 發佈

DeepSeek突襲更新V3.2後緊急下架

阿里通義7款模型屠榜Hugging Face!全模態大模型Qwen3-Omni登頂全球第一