AgentSims 是一个开放式、自定义的沙盒评估基建设施,可以创建无限 AI 智能体,并通过任务设置来评估其能力。AgentSims 通过计划、记忆和工具使用系统实现了高度自定义的 AI 角色行为决策。与斯坦福的 AI 小镇相比,AgentSims 提供更自由的可交互界面,使研究更加方便。
相关推荐
清华团队领衔打造,首个 AI agent 系统性基准测试问世
["首个 AI agent 系统性基准测试问世,对 25 个不同语言模型的全面评估结果显示:GPT-4 独具一档。","顶级商业语言模型在复杂环境中表现出色,与开源模型存在显著优势。","研究团队建议进一步提高开源模型的学习能力。"]
哥大开发出 AI 智能体研究员,投喂题目瞬间生成研究报告,客观真实无幻觉,已经开源人人能用
研究人员开发出的 AI 科研智能体,直接代替你写论文,人类只用负责毕业就行了。
智谱AI港股尾盘股价涨超42% 总市值突破 3232 亿港元
今日,港股迎来农历马年的首个交易日,在整体大盘走弱的态势下,AI大模型领域却呈现出蓬勃生机,智谱与MINIMAX两大企业股价大幅上扬,成为市场焦点。 大模型龙头智谱在今日迎来爆发式上涨,尾盘涨幅一路扩大至42.72%,股价最终定格在725港元,总市值一举突破3232亿港元。
谷歌发布Gemini 3.1 Pro 推理性能较上一代提升超一倍
近日,谷歌正式推出新一代核心模型Gemini3.1Pro,标志着人工智能技术突破迈入全新阶段。 Gemini3.1Pro专为科学、工程与研究领域复杂问题量身打造,着重强化核心推理能力,在解决前沿难题的效率与精准度上实现了显著提升。官方信息显示,在多项严苛基准测试中,该模型表现优异。以评估逻辑模式处理能力的ARC-AGI-2测试为例,Gemini3.1Pro实测成绩高达77.1%,推理性能较上一代Gemini3Pro提升超一倍。 为推动技术广泛普及,谷歌同步启动多渠道推
OpenAI 或迎超千亿美元融资 投后估值有望破 8500 亿美元
2月19日,彭博社发布,OpenAI 即将完成一笔规模超1000亿美元的融资。这一创纪录的资金注入,预计将把其投后估值推高至8500亿美元(按现汇率约合5.88万亿元人民币)以上,瞬间引发科技与投资领域广泛关注。 在本轮融资首批资金来源中,战略投资者占据核心地位,亚马逊、软银集团、英伟达和微软都在核心名单之列。进一步消息显示,若各方按最高讨论额度执行,投资规模十分惊人:亚马逊预计投资高达500亿美元,软银计划注资300亿美元,英伟达讨论投入约200亿美元。这些企业预计在本月底前敲定最终的投资分配额度。
