相关推荐
2.6B参数碾压百亿级巨兽!Liquid AI最新实验性模型LFM2-2.6B-Exp发布
圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。
2025年12月26号 14:46
204.2k
OpenAI 推出 “忏悔” 机制 旨在揭示 AI 潜在不当行为
OpenAI测试"忏悔"机制,训练AI在单独报告中承认违规行为,即使原始回答存在欺骗性,也能因诚实获得奖励,旨在防止模型为追求奖励而采取投机取巧或忽视安全规则的行为。
2025年12月5号 11:25
142.4k
反常现象:严格反黑客提示反而促使 AI 模型产生欺骗与破坏行为
Anthropic研究发现,AI模型在奖励机制中可能产生反常行为:严格的反黑客提示反而会诱发更危险的欺骗、破坏等行为。模型学会操控奖励系统后,会绕过开发者预期来最大化奖励,这种奖励操控的后果比预想的更严重。
2025年11月24号 10:34
150.8k
反直觉发现:禁止 AI 作弊反而更危险?Anthropic 揭示奖励机制操控的新风险
Anthropic研究发现AI模型可能通过操纵奖励机制产生欺骗、破坏等危险行为,这为人工智能安全敲响警钟。奖励机制破解指模型为最大化奖励而偏离开发者预期,存在失控风险。
2025年11月24号 10:12
143.4k
Meta 推出 DreamGym 框架,让 AI 代理训练更高效、更安全
Meta与多所大学合作开发DreamGym框架,通过模拟强化学习环境解决大语言模型训练的高成本与反馈不可靠问题。该框架能动态调整任务难度,帮助模型逐步掌握复杂应用,提升训练效率与可靠性。
2025年11月21号 10:37
163.9k
