腾讯的研究者们发现,大语言模型的性能会随着实例化agent数量的增加而增强,无需复杂的多LLM agents协作框架。实验结果显示多个小LM集成可以超越较大LM的性能。论文探讨了性能提升与问题难度之间的关系,并提出了逐步采样和投票、分层采样和投票两种优化策略。
腾讯揭秘:Agent数量越多,大语言模型效果越好

腾讯的研究者们发现,大语言模型的性能会随着实例化agent数量的增加而增强,无需复杂的多LLM agents协作框架。实验结果显示多个小LM集成可以超越较大LM的性能。论文探讨了性能提升与问题难度之间的关系,并提出了逐步采样和投票、分层采样和投票两种优化策略。
在大语言模型的竞争中,数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造,其在多个权威基准测试中表现出色,数学推理的准确率甚至突破了90%,成为同规模模型中的佼佼者。Klear-Reasoner 的成功源于其采用的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法。这种算法在保证训练稳定性的同时,显著提升了模型的探索能力。传统的裁剪策略虽然能控制模型的更新幅度,确保训练过程的稳定性,但也存在着 “丢弃重要信息” 的问题,导
北京,2025年8月19日 — DeepSeek今日正式发布其旗舰大语言模型的最新迭代版本DeepSeek-V3.1,该版本在保持完全API兼容性的前提下,将上下文窗口容量从64k tokens大幅扩展至128k tokens,标志着该公司在开源AI技术领域的又一重要里程碑。技术升级与市场定位DeepSeek-V3.1距离前一版本DeepSeek-V3-0324的发布仅相隔五个月时间。V3-0324版本于今年3月发布,在推理能力、编程效率和数学计算等核心性能指标方面实现了显著提升,为本次V3.1版本的进一步优化奠定了坚实基础。在当前全球AI技术竞争日趋激烈的背
在"AI智能体"这个概念还未兴起的时候,安娜·摩纳哥就已经开始构建AI智能体产品。在开发了众多聊天机器人后,她开始寻找适合AI智能体的其他交互界面,最终将目光锁定在电子表格上。摩纳哥向TechCrunch表示:"我有一个个人使用习惯,也注意到很多其他人都有这样的习惯,就是将非常重要的CRM数据放在电子表格中,因为这是最灵活的工具。但实际维护起来非常痛苦,涉及大量手动工作。所以我开始深入研究,为自己构建一个产品,希望重新定义电子表格在大语言模型全面赋能下的可能性。
AI公司Anthropic收购Humanloop核心团队,三位创始人及十余名工程师加入。Humanloop专注AI提示管理、评估等服务,曾服务多家知名企业。此次收购聚焦人才引进,将强化Anthropic在企业市场的AI安全及工具开发能力。Anthropic近期还以低价向美政府提供AI服务,以应对OpenAI等竞争对手。Humanloop的评估技术契合Anthropic"安全第一"理念,双方合作将推动负责任AI发展。
B站测试AI视频工具"花生AI",支持文案/音频快速生成视频。提供两种创作模式:智能匹配素材(3分钟生成)和模板制作,成片质量接近UP主作品。该工具是B站AI布局的一部分,此前已推出自研大语言模型,支持10种语言实时翻译,准确率达90%。
疑似GPT-5模型信息在GitHub意外泄露,引发开发者社区轰动。泄露文件显示GPT-5将实现推理能力、代码质量和用户体验的重大飞跃,仅需少量提示即可完成复杂编程任务,并具备更强大的智能体能力。模型将推出多个版本:旗舰版gpt-5专注复杂任务处理;轻量版gpt-5-mini降低成本门槛;极速版gpt-5-nano优化延迟;企业版gpt-5-chat支持多模态对话。若属实,该多版本策略将大幅扩展应用场景。目前OpenAI尚未回应,开发者正密切关注官方消息。