Patronus AI发布SimpleSafetyTests测试套件,发现ChatGPT等AI系统存在关键安全漏洞。测试揭示了11个LLMs中的严重弱点,强调安全提示可减少不安全响应。结果表明在处理真实世界应用之前,LLMs需要严格而定制的安全解决方案。
相关推荐
Anthropic Mythos AI 模型遭黑客入侵,安全性引发质疑
Anthropic公司开发的Claude Mythos AI模型因网络安全能力过强而未公开发布,但遭黑客在测试期间非法获取。该事件凸显AI安全挑战,使注重安全的Anthropic陷入困境。
2026年4月24号 10:26
174.3k
蚂蚁AI安全实验室发现OpenClaw多个高危漏洞并协助快速修复
蚂蚁AI安全实验室对开源智能体框架OpenClaw进行安全审计,发现33个漏洞。最新版本已修复其中8个,包括1个严重、4个高危和3个中危漏洞。蚂蚁集团将持续关注其安全风险,支持AI智能体安全应用。
2026年3月30号 14:02
188.3k
未雨绸缪:Anthropic 成立官方智库,应对 AGI 时代的社会冲击
AI安全先驱成立Anthropic Institute智库,专注研究强大AI带来的深层风险。智库预测未来两年AI将迎突破性进展,可能接近通用人工智能(AGI),因此将重点应对相关挑战。
2026年3月13号 11:47
207.0k
瞄准龙虾安全问题,OpenAI收购AI安全初创公司Promptfoo
OpenAI收购初创公司Promptfoo,强化AI安全布局。这家成立于2024年的公司专注于AI应用评测与安全,拥有23人团队和35万开发者用户,估值达8600万美元。收购将帮助OpenAI弥补智能体安全方面的不足,应对AI智能体快速发展带来的安全挑战。
2026年3月11号 14:08
174.2k
OpenAI 官宣收编 Promptfoo,誓要补上最后一块短板
OpenAI收购Promptfoo,强化AI安全防线。此举旨在通过自动化工具,在开发早期检测并防止大模型产生错误或被恶意引导,确保AI技术的可靠与安全。
2026年3月10号 9:00
244.5k
