正文

清華團隊領銜打造，首個 AI agent 系統性基準測試問世

發布於AI新閒資訊

時間 :Aug 9, 2023

閱讀 :1分鐘

清華大學等團隊發佈了首個 AI agent 系統性基準測試 AgentBench，對 25 個不同語言模型進行了全面評估。研究結果顯示，GPT-4 在複雜環境中表現出色，頂級商業語言模型與開源模型存在顯著優勢。研究團隊建議進一步提高開源模型的學習能力。

基準測試不等於真實能力?研究稱AI代碼“通過率”或被高估最高達7倍

研究指出，SWE-bench Verified基準測試可能高估AI編程能力。該測試中被判“通過”的AI代碼方案，約一半在實際項目審覈中會被拒絕，顯示自動化評測與真實工程質量存在明顯差距。這一發現對AI輔助軟件工程評估標準提出了重要質疑。

騰訊與清華大學聯合推出AI音樂模型SongGeneration2，在技術架構和音樂質量上實現重大突破，顯著超越現有開源模型，甚至媲美頂級商業產品，有效解決了AI音樂的“塑料感”問題。

清華大學發佈首份AI教育應用指導原則，系統規範校園AI使用，覆蓋教學、科研等核心場景。文件分總則、教學、學位論文三部分，強調“積極而審慎”立場，旨在全局引導AI合理應用。

清華大學發佈《人工智能教育應用指導原則》，系統規範校園AI使用，涵蓋教學、學術研究等核心場景。內容分爲總則、教學篇、學位論文及實踐成果篇三部分，強調積極引導與分層管理，旨在促進AI在教育領域的合理應用。

清華大學在《自然・機器智能》發表研究，提出“能力密度”新概念，挑戰傳統AI評估標準。研究強調不應僅關注模型參數數量，而應重視每個參數的智能水平，質疑“模型越大能力越強”的規模法則。

智啟未來，您的人工智能解決方案智庫