最近,全球首届AI安全峰会在英国布莱切利园成功举办,来自包括中美等28个国家的代表出席并签署了《布莱切利AI宣言》。该宣言呼吁AI科研机构和企业应以负责任的方式设计、开发和使用AI。宣言承认AI改善人类生活的巨大潜力,也警告AI发展可能造成的伤害,希望通过法规等手段规避风险。会议持续两天,多国政府代表、国际组织及科研机构、企业等积极参与,重点讨论AI技术带来的风险。中国等国家愿意加强在AI安全领域的国际合作与交流,共同建立全球治理共识框架。
相关推荐
谷歌 DeepMind 发布 Gemma Scope 2:为 Gemma 3 模型提供全栈可解释性工具
谷歌DeepMind推出Gemma Scope2,这是一个开放的可解释性工具套件,旨在深入分析Gemma3语言模型从2.7亿到270亿参数的各层次信息处理。该工具帮助AI安全与对齐团队追踪模型内部特征,以应对“越狱”、幻觉或不当行为等问题。
2025年12月23号 15:18
130.3k
红帽收购 AI 公司 Chatterbox Labs 强化企业级 AI 安全能力
红帽收购AI公司Chatterbox Labs,以强化企业级AI布局。该公司专注AI模型测试与生成式AI安全,其AIMI平台可量化AI风险并管理模型行为。这是红帽继去年收购Neural Magic后在AI领域的又一重要投资。
2025年12月17号 8:55
116.1k
仅需250份文件!AI模型也能被 “洗脑” 的惊人发现
最新研究显示,ChatGPT等大语言模型易受数据中毒攻击,仅需约250份污染文件即可植入后门,改变模型回应,暴露AI安全脆弱性,引发对现有防护措施的反思。
2025年10月20号 9:08
132.1k
Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型
研究表明,仅需250份投毒文件即可在大型语言模型中植入后门,且攻击效果与模型大小无关。测试涵盖6亿至130亿参数模型,发现即使使用更干净数据训练的大模型,所需中毒文档数量不变,挑战了传统认知。
2025年10月11号 9:45
151.7k
阿里云发布安全护栏新宠Qwen3Guard 旨在为人工智能提供可靠的安全保障
阿里云通义团队9月28日推出Qwen3Guard,这是Qwen家族首款安全护栏模型。基于Qwen3架构专项微调,旨在提升AI交互安全性,精准识别用户输入和AI回复中的潜在风险,提供可靠防护。
2025年9月29号 9:03
135.9k
