IBM 的研究表明,人们可以轻松欺骗大型语言模型如 GPT-4 生成恶意代码或提供虚假的安全建议。研究人员发现,黑客只需一些英语基础知识和对模型训练数据的了解就能轻松欺骗 AI 聊天机器人,让其提供虚假信息或生成恶意代码。研究还发现,不同的 AI 模型对欺骗的敏感度不同,GPT-3.5 和 GPT-4 更容易被欺骗,而 Google 的 Bard 和 Hugging Face 模型则较为难以欺骗。这项研究揭示了大型语言模型的安全漏洞,黑客可能利用这些漏洞来获取用户的个人信息或提供危险的安全建议。
相关推荐
Meta 研究人员揭开大语言模型黑箱,修复 AI 推理缺陷
Meta与爱丁堡大学合作开发CRV技术,通过分析大型语言模型内部推理电路,预测其推理正确性并修复错误。该方法构建模型激活计算图,高精度检测推理错误,提升AI可靠性。
2025年10月31号 8:57
115.2k
AI 模型用两本书生成名家风格作品,引发版权法新讨论
AI仅用两本书微调即可模仿名家写作风格,读者评价甚至超越专业模仿者。研究涉及50位知名作家,包括韩江和鲁西迪。159名参与者(含28名专家)通过Prolific平台评判,结果显示AI生成作品更受青睐。
2025年10月27号 9:37
117.1k
应对模型推理缺陷:苹果MIND团队加紧招聘AI人才
苹果公司正加紧招聘推理模型领域专家,以解决其研究揭示的大型语言模型重大缺陷。招聘聚焦开发更准确高效的新型架构,重点强化推理、规划、工具使用和基于代理的LLM能力。
2025年10月23号 9:00
83.3k
AI 驱动的“数字孪生”解放工作效率:初创公司 Viven 获3500万美元种子轮融资,解决员工“不在场”痛点
人工智能初创公司Viven利用大型语言模型和数据隐私技术,打造员工数字孪生,解决因休假或时区差异导致的关键信息缺失问题,避免项目停滞,降低时间成本。
2025年10月16号 9:13
89.9k
HKU和美团联手破解AI数学难题:CodePlot-CoT让大模型学会用代码画图思考,性能飙升21%
大语言模型在数学几何题上表现不佳。GPT-4.1和Gemini-2.5-Pro虽在写作、编程领域优秀,但面对需画辅助线或函数图像的题目时频繁出错。根源在于模型擅长文本推理,却缺乏几何空间想象能力,无法精准脑中构图,导致错误结论。
2025年10月14号 15:21
99.2k
