最近,LAION 宣佈推出經過安全審查的新版本 AI 訓練數據集 ——Re-LAION-5B。這個新數據集在之前廣受歡迎的 LAION-5B 基礎上進行了重大改進,特別是在清理與兒童性虐待材料(CSAM)相關的鏈接方面。LAION 表示,Re-LAION-5B 是全球首個在文本 - 圖像對數據集上全面清除已知 CSAM 鏈接的網頁規模數據集。

黑客,攻擊

LAION 的發言人提到,Re-LAION-5B 主要分爲兩個版本:Re-LAION-5B Research 和 Re-LAION-5B Research-Safe。在這個新數據集中,總共移除了2,236個鏈接,這些鏈接都是根據與兒童保護組織合作提供的名單進行檢查的。其中,有1,008個鏈接是在斯坦福互聯網觀察所於2023年12月發佈的報告中確認的。

值得一提的是,LAION 指出,很多已知的兒童性虐待材料鏈接可能已經不再活躍,因爲相關機構一直在努力從公共互聯網中刪除這些內容。因此,這個數字代表了一個可能的上限,實際上能夠指向的 CSAM 鏈接可能更少。Re-LAION-5B 目前包含了55億對文本和圖像,第三方可以利用這些元數據來清理現有的 LAION-5B 衍生作品,生成差異並移除所有匹配的內容。

LAION 希望,通過發佈 Re-LAION-5B,能夠爲清理網頁規模的數據集設定一個新的安全標準。這一更新是在原始 LAION-5B 數據集曾因包含患者圖像而受到批評後進行的。與此同時,LAION 還提到,CSAM 在 AI 訓練數據集中的存在問題十分嚴重,尤其是一些經過訓練的系統甚至被用來生成 CSAM 內容。

據互聯網觀察基金會(IWF)報告,自2023年秋季以來,AI 生成的兒童性虐待材料出現了大幅增長。這種 AI 內容的增加不僅給真實的兒童虐待案件調查帶來了困擾,也導致社交媒體平臺自動生成的關於 CSAM 的報告數量激增,進一步加劇了問題的複雜性。

劃重點:

🌟 Re-LAION-5B 是全球首個在文本 - 圖像對數據集上全面清除 CSAM 鏈接的網頁規模數據集。  

🔗 移除了2,236個鏈接,其中包括來自兒童保護組織的1,008個已知鏈接。  

🛡️ LAION 希望新數據集能爲清理網頁規模數據集樹立新的安全標準。