相關推薦
僅需250份文件!AI模型也能被 “洗腦” 的驚人發現
最新研究顯示,ChatGPT等大語言模型易受數據中毒攻擊,僅需約250份污染文件即可植入後門,改變模型迴應,暴露AI安全脆弱性,引發對現有防護措施的反思。
Anthropic 突破性發現:僅250份中毒文件即可攻破大型 AI 模型
研究表明,僅需250份投毒文件即可在大型語言模型中植入後門,且攻擊效果與模型大小無關。測試涵蓋6億至130億參數模型,發現即使使用更乾淨數據訓練的大模型,所需中毒文檔數量不變,挑戰了傳統認知。
阿里雲發佈安全護欄新寵Qwen3Guard 旨在爲人工智能提供可靠的安全保障
阿里雲通義團隊9月28日推出Qwen3Guard,這是Qwen家族首款安全護欄模型。基於Qwen3架構專項微調,旨在提升AI交互安全性,精準識別用戶輸入和AI回覆中的潛在風險,提供可靠防護。
華爲與浙大攜手發佈 DeepSeek-R1-Safe 大模型:AI安全與性能完美平衡
在剛剛結束的華爲全聯接大會上,華爲技術有限公司聯合浙江大學推出了國內首個基於昇騰千卡算力平臺的基礎大模型 ——DeepSeek-R1-Safe。這一創新性產品旨在解決當前 AI 領域面臨的安全與性能問題,開創了智能科技的新篇章。浙江大學計算機科學與技術學院的院長任奎在會上詳細介紹了這一模型的核心創新。DeepSeek-R1-Safe 是通過一個全流程的安全後訓練框架構建而成,涵蓋了高質量的安全語料庫、平衡優化的安全訓練以及自主創新的軟硬件平臺。這一框架的設計旨在從底層解決 AI 模型在
AI安全新獨角獸誕生:Irregular獲鉅額融資,模擬環境預測模型風險
隨着人工智能模型能力快速提升,AI安全問題日益凸顯。週三,專注於AI安全評估的公司Irregular宣佈完成8000萬美元新一輪融資,由紅杉資本和紅點創投領投,網絡安全公司Wiz首席執行官阿薩夫·拉帕波特也參與投資。知情人士透露,此輪融資對Irregular的估值達到4.5億美元。前瞻性安全防護理念"我們的觀點是,很快,大量的經濟活動將來自人與人工智能的互動以及人工智能與人工智能的互動,這將在多個方面打破安全體系,"聯合創始人丹·拉哈夫告訴TechCrunch。這一判斷反映了Irregular對AI時代
