Patronus AI發佈SimpleSafetyTests測試套件,發現ChatGPT等AI系統存在關鍵安全漏洞。測試揭示了11個LLMs中的嚴重弱點,強調安全提示可減少不安全響應。結果表明在處理真實世界應用之前,LLMs需要嚴格而定製的安全解決方案。
相關推薦
Anthropic Mythos AI 模型遭黑客入侵,安全性引發質疑
Anthropic公司開發的Claude Mythos AI模型因網絡安全能力過強而未公開發布,但遭黑客在測試期間非法獲取。該事件凸顯AI安全挑戰,使注重安全的Anthropic陷入困境。
Apr 24, 2026
176.2k
螞蟻AI安全實驗室發現OpenClaw多個高危漏洞並協助快速修復
螞蟻AI安全實驗室對開源智能體框架OpenClaw進行安全審計,發現33個漏洞。最新版本已修復其中8個,包括1個嚴重、4個高危和3箇中危漏洞。螞蟻集團將持續關注其安全風險,支持AI智能體安全應用。
Mar 30, 2026
188.3k
未雨綢繆:Anthropic 成立官方智庫,應對 AGI 時代的社會衝擊
AI安全先驅成立Anthropic Institute智庫,專注研究強大AI帶來的深層風險。智庫預測未來兩年AI將迎突破性進展,可能接近通用人工智能(AGI),因此將重點應對相關挑戰。
Mar 13, 2026
192.1k
瞄準龍蝦安全問題,OpenAI收購AI安全初創公司Promptfoo
OpenAI收購初創公司Promptfoo,強化AI安全佈局。這家成立於2024年的公司專注於AI應用評測與安全,擁有23人團隊和35萬開發者用戶,估值達8600萬美元。收購將幫助OpenAI彌補智能體安全方面的不足,應對AI智能體快速發展帶來的安全挑戰。
Mar 11, 2026
174.2k
OpenAI 官宣收編 Promptfoo,誓要補上最後一塊短板
OpenAI收購Promptfoo,強化AI安全防線。此舉旨在通過自動化工具,在開發早期檢測並防止大模型產生錯誤或被惡意引導,確保AI技術的可靠與安全。
Mar 10, 2026
244.5k
