AgentSims 是一個開放式、自定義的沙盒評估基建設施,可以創建無限 AI 智能體,並通過任務設置來評估其能力。AgentSims 通過計劃、記憶和工具使用系統實現了高度自定義的 AI 角色行爲決策。與斯坦福的 AI 小鎮相比,AgentSims 提供更自由的可交互界面,使研究更加方便。
相關推薦
清華團隊領銜打造,首個 AI agent 系統性基準測試問世
["首個 AI agent 系統性基準測試問世,對 25 個不同語言模型的全面評估結果顯示:GPT-4 獨具一檔。","頂級商業語言模型在複雜環境中表現出色,與開源模型存在顯著優勢。","研究團隊建議進一步提高開源模型的學習能力。"]
Aug 9, 2023
151.6k
哥大開發出 AI 智能體研究員,投喂題目瞬間生成研究報告,客觀真實無幻覺,已經開源人人能用
研究人員開發出的 AI 科研智能體,直接代替你寫論文,人類只用負責畢業就行了。
Aug 4, 2023
143.3k
OpenAI表態支持特朗普AI行政令:願在模型發佈前接受政府安全評估
OpenAI表示將遵守特朗普簽署的人工智能模型發佈前審查行政命令。公司全球事務負責人喬治·奧斯本在倫敦SXSW活動上確認,將簽署這項自願性命令並參與評估。他強調OpenAI對自身責任“非常嚴肅”,並指出作爲掌握強大技術的公司,需謹慎行事。
Jun 5, 2026
501.3k
OpenAI CEO 薩姆・奧特曼:積極主動的 AI 將成爲未來趨勢
OpenAI首席執行官薩姆·奧特曼提出AI產品發展三階段理論:第一階段是聊天模型(如ChatGPT),第二階段爲基於代理的系統(如Codex),第三階段是“積極主動的AI”,即後臺持續運行、自動執行任務的AI。當前代理階段是最大產品類別,主要響應客戶需求,但用戶使用中仍存在侷限。
Jun 5, 2026
140.4k
騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench
騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench,這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度,覆蓋30多種規劃任務類型,支持數據生成與驗證,旨在評估模型的實際規劃能力。
Jun 5, 2026
152.7k
