AgentSims 是一個開放式、自定義的沙盒評估基建設施,可以創建無限 AI 智能體,並通過任務設置來評估其能力。AgentSims 通過計劃、記憶和工具使用系統實現了高度自定義的 AI 角色行爲決策。與斯坦福的 AI 小鎮相比,AgentSims 提供更自由的可交互界面,使研究更加方便。
相關推薦
清華團隊領銜打造,首個 AI agent 系統性基準測試問世
["首個 AI agent 系統性基準測試問世,對 25 個不同語言模型的全面評估結果顯示:GPT-4 獨具一檔。","頂級商業語言模型在複雜環境中表現出色,與開源模型存在顯著優勢。","研究團隊建議進一步提高開源模型的學習能力。"]
Aug 9, 2023
109.5k
哥大開發出 AI 智能體研究員,投喂題目瞬間生成研究報告,客觀真實無幻覺,已經開源人人能用
研究人員開發出的 AI 科研智能體,直接代替你寫論文,人類只用負責畢業就行了。
Aug 4, 2023
81.5k
全球首個AI影響力代理,Loomi用IDE思維重塑內容創作
Loomi推出全球首個AI內容創作IDE,旨在解決創作者面臨的效率低下、內容適配難等痛點,通過AI技術優化創作流程,提升內容產出效率。
Dec 29, 2025
123.6k
1美元跑200個瀏覽器任務!開源瀏覽器操控神器BU-30B-A3B-Preview橫空出世
近日,開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview,被譽爲網頁代理領域新標杆。該模型採用混合專家(MoE)架構,總參數達300億,但推理時僅激活部分參數,兼顧強大性能與輕量化運行,顯著降低了AI瀏覽器操作的成本與門檻。
Dec 26, 2025
75.8k
意大利勒令Meta暫停WhatsApp AI禁令!歐盟同步調查,Meta被指濫用市場支配地位打壓競品聊天機器人
意大利監管機構緊急叫停Meta限制第三方AI接入WhatsApp Business API的政策,認爲其涉嫌濫用市場支配地位,損害AI市場競爭與消費者利益。此舉緊隨歐盟同類調查,顯示歐洲正對Meta的AI入口布局展開系統性反壟斷審查。核心爭議在於政策爲何只禁ChatGPT類AI,卻不禁客服機器人。
Dec 26, 2025
66.5k
