LAION 發佈全新 AI 數據集 Re-LAION-5B，徹底清除兒童性虐待內容鏈接

最近，LAION 宣佈推出經過安全審查的新版本 AI 訓練數據集 ——Re-LAION-5B。這個新數據集在之前廣受歡迎的 LAION-5B 基礎上進行了重大改進，特別是在清理與兒童性虐待材料（CSAM）相關的鏈接方面。LAION 表示，Re-LAION-5B 是全球首個在文本 - 圖像對數據集上全面清除已知 CSAM 鏈接的網頁規模數據集。

黑客，攻擊

LAION 的發言人提到，Re-LAION-5B 主要分爲兩個版本:Re-LAION-5B Research 和 Re-LAION-5B Research-Safe。在這個新數據集中，總共移除了2，236個鏈接，這些鏈接都是根據與兒童保護組織合作提供的名單進行檢查的。其中，有1，008個鏈接是在斯坦福互聯網觀察所於2023年12月發佈的報告中確認的。

值得一提的是，LAION 指出，很多已知的兒童性虐待材料鏈接可能已經不再活躍，因爲相關機構一直在努力從公共互聯網中刪除這些內容。因此，這個數字代表了一個可能的上限，實際上能夠指向的 CSAM 鏈接可能更少。Re-LAION-5B 目前包含了55億對文本和圖像，第三方可以利用這些元數據來清理現有的 LAION-5B 衍生作品，生成差異並移除所有匹配的內容。

LAION 希望，通過發佈 Re-LAION-5B，能夠爲清理網頁規模的數據集設定一個新的安全標準。這一更新是在原始 LAION-5B 數據集曾因包含患者圖像而受到批評後進行的。與此同時，LAION 還提到，CSAM 在 AI 訓練數據集中的存在問題十分嚴重，尤其是一些經過訓練的系統甚至被用來生成 CSAM 內容。

據互聯網觀察基金會（IWF）報告，自2023年秋季以來，AI 生成的兒童性虐待材料出現了大幅增長。這種 AI 內容的增加不僅給真實的兒童虐待案件調查帶來了困擾，也導致社交媒體平臺自動生成的關於 CSAM 的報告數量激增，進一步加劇了問題的複雜性。

劃重點:
🌟 Re-LAION-5B 是全球首個在文本 - 圖像對數據集上全面清除 CSAM 鏈接的網頁規模數據集。
🔗 移除了2，236個鏈接，其中包括來自兒童保護組織的1，008個已知鏈接。
🛡️ LAION 希望新數據集能爲清理網頁規模數據集樹立新的安全標準。

德國法院允許非營利組織LAION抓取受版權保護的圖像用於AI訓練

在人工智能快速發展的今天，一場發生在德國漢堡的法庭裁決爲AI訓練數據的收集和使用帶來了新的討論。這起案件不僅引發了公衆對AI與版權之間關係的深思，也爲未來AI發展的法律框架提供了重要參考。事件的起因是非營利組織LAION在未經授權的情況下，從一個圖片代理網站下載了一張受版權保護的圖像。LAION將這張圖像與相關描述配對，並將其納入了名爲"LAION-5B"的免費數據集中。這個龐大的數據集包含了高達58.5億對圖像和文字組合，被廣泛用於AI訓練。圖源備註：圖片由AI生成，圖片授

用於訓練 Stable Diffusion 的數據集背後的組織聲稱已經刪除了 CSAM

德國研究機構LAION創建併發布了新數據集Re-LAION-5B，聲稱已清除疑似兒童性虐待材料（CSAM）鏈接。該數據集是舊數據集LAION-5B的修復版，採納了互聯網觀察基金會、人權觀察、加拿大兒童保護中心和斯坦福互聯網觀察站的建議。Re-LAION-5B分爲兩個版本：Research和Research-Safe，後者額外刪除了NSFW內容。數據集旨在支持Stable Diffusion等生成式AI模型的訓練，且不包含圖像，僅提供圖像鏈接和替代文本的索引。Re-LAION-5B的發佈前，斯坦福互聯網觀察站發現LAION-5B包含非法圖片鏈接，且數據集中可能存在不當內容。LAION已暫時下線原數據集，並承諾刪除已知違規鏈接。新數據集包含約55億個文本圖像對，根據Apache2.0許可發佈。LAION強調數據集用於研究而非商業目的，並鼓勵使用元數據清理現有副本。

iOS 18.2大爆料：Siri攜手ChatGPT，年末重磅更新來襲

蘋果公司預計在iOS18.2版本中集中推出多項承諾功能，成爲2024年內重要更新，包括Siri整合ChatGPT技術、Genmoji表情生成器、郵件應用重新設計、機器人吸塵器全面支持等。CEO蒂姆·庫克確認ChatGPT功能年底前推出，顯示蘋果對AI技術的重視。Genmoji功能雖未正式發佈，但測試版中的界面元素暗示即將上線。新版郵件應用帶來全新設計和高效分類功能，Home應用控制智能吸塵器功能增強。針對歐盟用戶，蘋果將更頻繁顯示默認瀏覽器選擇屏幕。這些功能展示了蘋果在AI集成、用戶體驗優化和智能家居領域的創新，並對監管環境變化做出響應。用戶期待在年末迎來這些新功能，這將進一步鞏固蘋果在移動操作系統領域的領先地位。

Windows 11或將引入 “智能媒體搜索”，音視頻文件秒變可搜索

微軟在Windows11中計劃推出“智能媒體搜索”功能，允許用戶通過口語搜索已索引的本地視頻或音頻文件。此功能需用戶同意掃描設備上的媒體文件，並在後臺下載、安裝AI模型進行轉錄和索引。目前功能仍在開發中，AI模型可能需要專用神經處理單元來處理運算。用戶能否選擇特定文件進行搜索仍有待明確，隱私問題因AI全面掃描媒體內容而引起關注。如果允許用戶選擇性處理，此功能可應用於會議或簡報的高效轉錄，類似於Otter.ai等第三方雲服務。

遊戲場景的智能助手來了！開源大模型 VideoGameBunny 讓你玩得更嗨

在遊戲開發領域，大模型逐漸成爲不可或缺的“智囊團”，從AI角色生成到場景構建，展現全面能力。然而，遊戲場景理解、圖像識別與內容描述仍需提升。加拿大阿爾伯塔的研究團隊推出開源大模型VideoGameBunny（VGB），針對遊戲開發優化，具備多語言支持、高度可定製性、強大的文本生成能力、開源易訪問性、兼容多種開發環境、豐富的模型文件和活躍社區支持。VGB支持多種功能，如遊戲對話系統、教育應用、客服聊天機器人等。其核心組件Bunny模型，通過多層感知器網絡將視覺信息轉換爲圖像標記，高效處理遊戲數據。通過與Meta開源LLama-3-8B結合使用SigLIP視覺編碼器和S2包裝器，VGB能夠捕捉遊戲視覺內容的多尺度特徵，理解遊戲環境，並生成匹配遊戲圖像的指令數據，如簡短和詳細的標題、圖像到JSON的描述及基於圖像的問答，從而提升遊戲的互動性和沉浸感，成爲開發者和玩家的強大助手。