相關推薦
谷歌 DeepMind 發佈 Gemma Scope 2:爲 Gemma 3 模型提供全棧可解釋性工具
谷歌DeepMind推出Gemma Scope2,這是一個開放的可解釋性工具套件,旨在深入分析Gemma3語言模型從2.7億到270億參數的各層次信息處理。該工具幫助AI安全與對齊團隊追蹤模型內部特徵,以應對“越獄”、幻覺或不當行爲等問題。
Dec 23, 2025
148.9k
紅帽收購 AI 公司 Chatterbox Labs 強化企業級 AI 安全能力
紅帽收購AI公司Chatterbox Labs,以強化企業級AI佈局。該公司專注AI模型測試與生成式AI安全,其AIMI平臺可量化AI風險並管理模型行爲。這是紅帽繼去年收購Neural Magic後在AI領域的又一重要投資。
Dec 17, 2025
132.0k
僅需250份文件!AI模型也能被 “洗腦” 的驚人發現
最新研究顯示,ChatGPT等大語言模型易受數據中毒攻擊,僅需約250份污染文件即可植入後門,改變模型迴應,暴露AI安全脆弱性,引發對現有防護措施的反思。
Oct 20, 2025
132.1k
Anthropic 突破性發現:僅250份中毒文件即可攻破大型 AI 模型
研究表明,僅需250份投毒文件即可在大型語言模型中植入後門,且攻擊效果與模型大小無關。測試涵蓋6億至130億參數模型,發現即使使用更乾淨數據訓練的大模型,所需中毒文檔數量不變,挑戰了傳統認知。
Oct 11, 2025
151.7k
阿里雲發佈安全護欄新寵Qwen3Guard 旨在爲人工智能提供可靠的安全保障
阿里雲通義團隊9月28日推出Qwen3Guard,這是Qwen家族首款安全護欄模型。基於Qwen3架構專項微調,旨在提升AI交互安全性,精準識別用戶輸入和AI回覆中的潛在風險,提供可靠防護。
Sep 29, 2025
135.9k
