AgentSims 是一个开放式、自定义的沙盒评估基建设施,可以创建无限 AI 智能体,并通过任务设置来评估其能力。AgentSims 通过计划、记忆和工具使用系统实现了高度自定义的 AI 角色行为决策。与斯坦福的 AI 小镇相比,AgentSims 提供更自由的可交互界面,使研究更加方便。
相关推荐
清华团队领衔打造,首个 AI agent 系统性基准测试问世
["首个 AI agent 系统性基准测试问世,对 25 个不同语言模型的全面评估结果显示:GPT-4 独具一档。","顶级商业语言模型在复杂环境中表现出色,与开源模型存在显著优势。","研究团队建议进一步提高开源模型的学习能力。"]
2023年8月9号 14:07
137.6k
哥大开发出 AI 智能体研究员,投喂题目瞬间生成研究报告,客观真实无幻觉,已经开源人人能用
研究人员开发出的 AI 科研智能体,直接代替你写论文,人类只用负责毕业就行了。
2023年8月4号 15:12
93.6k
MiniMax Agent 桌面端大升级:上线 Pocket 功能,跨平台接管飞书微信
MiniMax发布桌面端Agent两项重要更新:Pocket功能正式上线,并解锁Computer Use能力。Pocket支持深度接入飞书、微信等主流通讯软件,用户可在聊天界面直接调用Agent,实现AI与传统办公软件的无缝协作。
2026年4月14号 17:40
83.3k
谷歌 AI 研究推出 Vantage:基于大语言模型的协作与创造力测评新方法
谷歌研究团队推出Vantage方法,利用大语言模型模拟真实团队互动,旨在测量传统测试难以评估的协作、创造力和批判性思维等“持久技能”,弥补教育领域长期缺乏有效评估工具的不足。
2026年4月14号 17:10
83.3k
OpenAI 内部信炮轰 Anthropic:虚增 80 亿,营收未超我方
OpenAI内部备忘录曝光,质疑Anthropic年化收入300亿美元数据严重注水,指责其采用“总额法”夸大营收,产品力不足以支撑平台级竞争。
2026年4月14号 15:27
144.3k
