相关推荐
腾讯发布OpenSearch-VL:开源多模态深度搜索 agent 的“全家桶”方案
腾讯混元联合UCLA、港中文等机构,针对多模态大语言模型(MLLMs)从“被动理解”向“主动推理”进化的需求,开源了多模态搜索智能体。此前,高质量数据、自动化轨迹合成路径及训练配方的缺失,导致顶尖智能体难以复现。此次开源旨在打破僵局,推动社区发展。
2026年5月7号 13:58
289.5k
32B 推理性能反超 o1-mini!阿里通义发布 FIPO 算法,让大模型“想得更深”
阿里通义实验室推出FIPO算法,突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制,精准识别关键推理步骤,有效解决模型在数学等复杂问题中推理长度停滞的问题,显著提升推理准确率和效率。
2026年4月8号 9:31
214.5k
阿里通义实验室发布FIPO算法,32B模型推理性能反超o1-mini
阿里通义实验室发布新型算法FIPO,通过引入“Future-KL”机制,有效解决纯强化学习在长文本推理中的“推理长度停滞”问题,提升复杂逻辑对齐训练效果。
2026年4月8号 8:51
194.7k
百万级智能体“大练兵”!MiniMax 联手腾讯云:RL 沙箱实现全量平稳运行
MiniMax与腾讯云合作,成功部署了具备百万级吞吐、十万级并发能力的Agent强化学习沙箱,并在测试环境中实现全量平稳运行。这标志着AI智能体底层基建能力取得重要突破,为其大规模应用提供了关键支撑。
2026年3月18号 9:15
167.7k
世界模型迈入精细调优时代:腾讯开源强化学习后训练框架 WorldCompass
腾讯混元3D团队开源了强化学习后训练框架WorldCompass,旨在提升世界模型在交互中的准确性和用户体验。该框架针对当前世界模型在处理复杂指令时易出现偏差的问题,通过强化学习优化模型表现。
2026年3月11号 13:59
163.9k
