文章报道了猩猩行动计划成功训练 42 岁的倭黑猩猩 Kanzi 玩《我的世界》的实验,发现其学习方法与 GPT-4 智能体训练方法相似。通过上下文强化学习、RLHF、模仿学习和课程学习等技巧,Kanzi 掌握了移动、收集奖励和击碎障碍物等技能。该实验展示了动物在感知和适应新环境方面的优势,超过了 AI 智能体的能力。
相关推荐
Wan2.5-Preview 发布,实现多模态输入与电影级视频同步生成
Wan2.5-Preview正式发布,这款AI模型通过革命性架构重塑视觉生成。其核心突破在于多模态处理、视频生成和图像编辑,采用统一框架实现文本、图像、视频和音频的灵活输入输出。通过联合训练,模型强化模态对齐,提升生成能力。
苹果新研究揭示LLM对齐新范式:清单式强化学习优于传统奖励模型
苹果研究人员提出新型“清单式”强化学习方案(RLCF),通过让模型对照清单自检工作,显著提升开源大语言模型性能。该方法在复杂指令任务中表现优于传统奖励模型,突破RLHF局限性,成为重要后训练优化手段。
昆仑万维再次开源奖励模型Skywork-Reward-V2
2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。为打造新一代奖励模型,昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理上,团队采用人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。第一阶段,先构建未经验证的初始偏好池,借助
重大突破!研究团队揭示大语言模型内部潜藏的 “奖励机制”
近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。当前,许多对齐方法依赖于人类反馈强化学习(RLHF),这种方法需要大量高质量的人类偏好数据来训练奖励模型。然而,构建这样一个数据集不仅耗时费力,还面临成本高昂的挑战。因此,研究者们开始探索替代方案,其中基于 AI 反馈的强化学习(RLAIF)受到关注。这种方法利用强大的大语言模型自身生成奖励信号,以降低对人类标
京东零售推出首个自研十亿级时序大模型TimeHF 可预测商品销量
京东零售技术团队宣布成功推出首个自研的十亿级销量预测时序大模型——TimeHF。该模型基于人类反馈的强化学习技术(RLHF),首次将其应用于销量预测领域,预测准确度大幅提升10%以上,显著降低了需求端预测的不确定性。这一成果不仅在京东内部的2万种商品自动化补货场景中取得了卓越表现
