德國研究機構LAION創建了用於訓練Stable Diffusion和其他生成式 AI 模型的數據,該機構發佈了一個新數據集,聲稱該數據集“已徹底清除已知的疑似兒童性虐待材料 (CSAM) 鏈接”。

新數據集 Re-LAION-5B 實際上是舊數據集 LAION-5B 的重新發布,但根據非營利組織互聯網觀察基金會、人權觀察、加拿大兒童保護中心和現已解散的斯坦福互聯網觀察站的建議實施了“修復”。它有兩個版本可供下載,分別是 Re-LAION-5B Research 和 Re-LAION-5B Research-Safe(還刪除了額外的 NSFW 內容),LAION 表示,這兩個版本都過濾了數千個已知(和“可能”)CSAM 鏈接。

LAION 在一篇博客文章中寫道:“LAION 從一開始就致力於從其數據集中刪除非法內容,並從一開始就採取了適當的措施來實現這一目標。” “LAION 嚴格遵守非法內容一旦被發現就會盡快刪除的原則。”

需要注意的是,LAION 的數據集不包含圖像,也從未包含過圖像。相反,它們是 LAION 整理的圖像鏈接和圖像替代文本的索引,所有這些都來自另一個數據集——Common Crawl,其中包含抓取的網站和網頁。

人工智能 機械手臂 AI (6)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

Re-LAION-5B 的發佈是在2023年12月斯坦福互聯網觀察站進行調查之後發佈的,調查發現 LAION-5B(特別是名爲 LAION-5B400M 的子集)包含至少1,679個從社交媒體帖子和流行成人網站上抓取的非法圖片鏈接。根據報告,400M 還包含“各種不當內容”的鏈接,包括色情圖片、種族主義誹謗和有害的社會刻板印象。

儘管該報告的斯坦福大學合著者指出,刪除違規內容會很困難,而且 CSAM 的存在不一定會影響在數據集上訓練的模型的輸出,但 LAION 表示將暫時將 LAION-5B 下線。

斯坦福報告建議,在 LAION-5B 上訓練的模型“應棄用並在可行的情況下停止分發”。或許與此相關,AI 初創公司 Runway最近從 AI 託管平臺 Hugging Face 上撤下了其 Stable Diffusion1.5模型;我們已聯繫該公司以獲取更多信息。(Runway 於2023年與 Stable Diffusion 背後的公司 Stability AI 合作,幫助訓練原始的 Stable Diffusion 模型。)

新的 Re-LAION-5B 數據集包含約55億個文本圖像對,並根據 Apache2.0許可發佈,LAION 表示第三方可以使用元數據來清理 LAION-5B 的現有副本,方法是刪除匹配的非法內容。

LAION 強調其數據集用於研究,而非商業目的。但如果歷史可以說明,這不會阻止一些組織。除了 Stability AI,谷歌還曾使用 LAION 數據集來訓練其圖像生成模型。

LAION 在帖子中繼續說道:“在與我們的合作伙伴提供的鏈接和圖像哈希列表匹配後,總共刪除了2,236個 [指向疑似 CSAM 的] 鏈接。” “這些鏈接還包含了2023年12月斯坦福互聯網觀測站報告中發現的1008個鏈接……我們強烈敦促所有仍在使用舊 LAION-5B 的研究實驗室和組織儘快遷移到 Re-LAION-5B 數據集。”