用於訓練 Stable Diffusion 的數據集背後的組織聲稱已經刪除了 CSAM

AIbase基地

Published in AI News · 1 minute read · Jul 17, 2025

德國研究機構LAION創建了用於訓練Stable Diffusion和其他生成式 AI 模型的數據，該機構發佈了一個新數據集，聲稱該數據集“已徹底清除已知的疑似兒童性虐待材料（CSAM）鏈接”。

新數據集 Re-LAION-5B 實際上是舊數據集 LAION-5B 的重新發布，但根據非營利組織互聯網觀察基金會、人權觀察、加拿大兒童保護中心和現已解散的斯坦福互聯網觀察站的建議實施了“修復”。它有兩個版本可供下載，分別是 Re-LAION-5B Research 和 Re-LAION-5B Research-Safe（還刪除了額外的 NSFW 內容），LAION 表示，這兩個版本都過濾了數千個已知(和“可能”)CSAM 鏈接。

LAION 在一篇博客文章中寫道:“LAION 從一開始就致力於從其數據集中刪除非法內容，並從一開始就採取了適當的措施來實現這一目標。” “LAION 嚴格遵守非法內容一旦被發現就會盡快刪除的原則。”

需要注意的是，LAION 的數據集不包含圖像，也從未包含過圖像。相反，它們是 LAION 整理的圖像鏈接和圖像替代文本的索引，所有這些都來自另一個數據集——Common Crawl，其中包含抓取的網站和網頁。

人工智能機械手臂 AI (6)

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

Re-LAION-5B 的發佈是在2023年12月斯坦福互聯網觀察站進行調查之後發佈的，調查發現 LAION-5B（特別是名爲 LAION-5B400M 的子集）包含至少1，679個從社交媒體帖子和流行成人網站上抓取的非法圖片鏈接。根據報告，400M 還包含“各種不當內容”的鏈接，包括色情圖片、種族主義誹謗和有害的社會刻板印象。

儘管該報告的斯坦福大學合著者指出，刪除違規內容會很困難，而且 CSAM 的存在不一定會影響在數據集上訓練的模型的輸出，但 LAION 表示將暫時將 LAION-5B 下線。

斯坦福報告建議，在 LAION-5B 上訓練的模型“應棄用並在可行的情況下停止分發”。或許與此相關，AI 初創公司 Runway最近從 AI 託管平臺 Hugging Face 上撤下了其 Stable Diffusion1.5模型;我們已聯繫該公司以獲取更多信息。（Runway 於2023年與 Stable Diffusion 背後的公司 Stability AI 合作，幫助訓練原始的 Stable Diffusion 模型。）

新的 Re-LAION-5B 數據集包含約55億個文本圖像對，並根據 Apache2.0許可發佈，LAION 表示第三方可以使用元數據來清理 LAION-5B 的現有副本，方法是刪除匹配的非法內容。

LAION 強調其數據集用於研究，而非商業目的。但如果歷史可以說明，這不會阻止一些組織。除了 Stability AI，谷歌還曾使用 LAION 數據集來訓練其圖像生成模型。

LAION 在帖子中繼續說道:“在與我們的合作伙伴提供的鏈接和圖像哈希列表匹配後，總共刪除了2，236個 [指向疑似 CSAM 的] 鏈接。” “這些鏈接還包含了2023年12月斯坦福互聯網觀測站報告中發現的1008個鏈接……我們強烈敦促所有仍在使用舊 LAION-5B 的研究實驗室和組織儘快遷移到 Re-LAION-5B 數據集。”

網頁圖片細節盡在掌握：Magnifier Lens Effect 讓放大觀察變得簡單

Magnifier Lens Effect 是一款專爲網頁圖片設計的放大鏡工具，旨在幫助用戶細緻觀察圖片的每一個細節。其核心功能包括流暢的放大體驗和靈活的放大調節，用戶可通過鼠標滾輪調整放大倍數和鏡頭大小，實現直觀且舒適的視覺體驗。此工具易於集成與定製，支持簡單的個性化調整，適用於電子商務、藝術展示和教育材料等多個場景。通過將放大鏡效果添加到網站，用戶在產品展示、藝術欣賞和教育內容理解中能獲得更深入的觀察體驗。

微軟構建AutoGen Studio，低代碼實現AI agent原型設計

微軟研究院發佈AutoGen Studio，一個低代碼工具，旨在簡化AI agent的原型設計和管理工作流。該工具基於開源AutoGen框架，提供網頁界面和Python API，允許開發者通過JSON規格定義支持大型語言模型的agent，支持快速原型設計、增強代理技能和組合複雜工作流。AutoGen Studio包含直觀的拖放界面、交互式評估和調試能力及可重用組件庫，旨在幫助開發者從概念驗證轉向生產，減少麻煩。目前處於開發階段，可能不會成熟，但已經在廣告、客戶支持、網絡安全、數據分析、教育、金融等多個行業應用，顯示了廣泛的適用性和潛在影響。AI agent在組織的雲原生策略中能發揮重要作用，並逐漸取代傳統機器人流程自動化（RPA）機器人，推動多agent系統創新。AutoGen Studio鼓勵開發者用於原型設計和演示，而非生產應用。

證件照不用愁！HivisionIDPhotos 讓你輕鬆搞定各種標準證件照

HivisionIDPhotos 是一款基於 AI 的高效證件照製作工具，能智能識別多種拍照場景，精準摳圖，生成符合多種用途（如護照、簽證）的高質量證件照。其最大亮點是輕量級摳圖功能，利用高效AI算法實現精準人像提取，支持自定義照片尺寸、背景顏色等參數，並能將多張證件照排版成標準尺寸，方便打印。此外，工具提供美顏和智能換正裝功能，以及基於FastAPI的API服務，支持Docker部署，簡化安裝流程，兼容不同操作系統。用戶可通過Gradio Demo在線體驗，無需安裝即可輕鬆操作。支持Python3.7及以上版本，適用於Linux、Windows、MacOS。總體而言，HivisionIDPhotos 是一款功能全面、操作簡便的證件照製作工具。

國內AI基礎設施領域新紀錄:無問芯穹獲近5億元A輪融資

AI基礎設施創業公司"無問芯穹"宣佈完成近5億元A輪融資，創下國內AI Infra層創業公司最大單筆融資記錄。本輪融資由社保基金中關村自主創新基金、啓明創投、洪泰基金聯合領投，聯想創投、小米、軟通高科等戰略投資方以及多家國資基金、財務機構跟投。此輪融資將主要用於加強技術人才吸納、深化技術研發、推動產品商業化發展並強化生態合作。"無問芯穹"成立僅16個月，累計融資額接近10億元，此前已獲得紅杉中國、百度、智譜和同歌創投等知名機構投資。這一融資速度和規模反映了投資者對"無問芯穹"發展前景的強烈信心，也凸顯了當前AI基礎設施市場的巨大潛力和激烈競爭。

愛爾蘭超過四分之一的僱主已在招聘使用人工智能

愛爾蘭招聘平臺 IrishJobs 的研究顯示，超過四分之一的愛爾蘭僱主已引入人工智能（AI）技術用於招聘，AI 主要應用於發送提醒、跟蹤候選人申請、安排面試及撰寫職位廣告。中型企業是最早採用 AI 的羣體，而小型企業採用率較低。46% 的招聘人員認爲 AI 讓工作變得更復雜，但有51% 認爲 AI 提高了招聘效率。AI 技術的使用也影響了求職者的行爲，促使僱主更重視個性化評估方法。

Runway發佈Gen-3 Alpha Extensions功能視頻可延長至40秒

Runway公司發佈Gen-3Alpha Extensions功能，將AI視頻生成時長擴展至40秒，並對所有用戶開放，此舉對數字內容創作產生革命性影響。用戶僅需提供圖片或文字輸入，即可生成包含完整故事情節或廣告內容的視頻。該技術對廣告製作、短視頻創作等領域具有深遠意義，大幅提升了創作效率。此外，Runway近期還推出了Gen-3Alpha Turbo版本，將視頻生成速度提高7倍，並在8月初爲圖生視頻功能添加了首尾幀控制，允許用戶通過特定圖像錨定AI生成的視頻，確保生成內容的一致性和可預測性。這些技術突破和功能升級正在重塑AI輔助創作的可能性，爲創作者提供了高效實現創意的工具。