Agent-as-a-Judge：用AI智能體來評估AI智能體的工作節省97% 的時間

在當前人工智能的迅猛發展中，評估智能代理的能力成爲了一個重要課題。爲此，Agent-as-a-Judge（代理法官）項目應運而生，它不僅是一個技術庫，更是一種全新的評估理念。該項目旨在通過智能代理對其他代理的工作進行評判，以生成高質量的數據集，並推動跨領域的研究。

Agent-as-a-Judge 的核心優勢在於自動評估和提供獎勵信號。通過智能代理對任務的實時評估，系統能夠節省高達97.72% 的時間和97.64% 的成本，這相比傳統的人工評審方式具有顯著的效率優勢。此外，項目還提供了持續的、逐步反饋的信息，作爲後續智能代理訓練和改進的獎勵信號。

該項目的快速啓動流程十分簡便。用戶只需從 GitHub 上克隆項目代碼，並安裝所需的 Python 環境和依賴包。接下來，用戶可以設置所需的 API 並運行相關腳本，便可進行各種類型的智能評審。例如，通過 “Ask Anything” 功能，用戶能夠查詢工作空間的內容，而 “Agent-as-a-Judge for DevAI” 功能則能對開發任務進行更深入的評估。

值得注意的是，Agent-as-a-Judge 已在2025年國際機器學習大會（ICML2025）上被接受，顯示出其在學術界的影響力。作爲概念驗證，該項目已成功應用於代碼生成任務，結果表明，該方法在處理55個實際 AI 開發任務時顯著優於傳統評估手段，爲智能代理系統的自我提升提供了可靠的獎勵信號。

隨着技術的不斷進步，Agent-as-a-Judge 將爲各行各業的智能評估帶來更多的可能性，同時也推動了對智能代理技術的廣泛應用和深入研究。

項目:https://github.com/metauto-ai/agent-as-a-judge

劃重點:
🌟 Agent-as-a-Judge 是一個新興的智能評估項目，旨在通過智能代理評判其他代理的工作。
⏳ 該項目通過自動評估，顯著節省了時間和成本，相比傳統評審方式具有明顯優勢。
🚀 已在 ICML2025上被接受，成功應用於代碼生成任務，展示出良好的性能和可靠性。

AI學會“無師自通”？AZR讓模型左右互搏，越打越聰明！

一項名爲Absolute Zero Reasoner（AZR）的創新項目近日引發廣泛關注。該項目通過一種全新的“絕對零點”訓練範式，讓大型語言模型(LLM)能夠自主提出問題、編寫代碼、運行驗證，並通過自我博弈(self-play)循環提升編程與數學能力。基於Qwen2.5-7B模型的測試數據顯示，AZR在編程能力上提升了5分，數學能力提升了15.2分(滿分100分)，展現了其在AI自進化領域的巨大潛力。核心機制:強化自博弈與零數據訓練AZR的核心創新在於其強化學習驗證推理（RLVR）機制。模型以提出者與解決者的雙重角色運作:提出

Figma重磅升級：發佈五大新功能，Figma Sites支持一鍵發佈網站

Figma 在其年度盛會 #Config2025上發佈了一系列令人振奮的新功能，旨在提升設計師的創作效率。以下是本次更新的五大亮點，助力設計師們在創作過程中更加得心應手。Figma Draw:自由繪圖的新體驗Figma 新增的自由繪圖功能（Figma Draw）爲設計師提供了一個創作的新天地。用戶可以在平臺內直接進行手繪，新增的填充、特效和筆刷工具使得繪畫過程更加靈活多樣。設計師們再也無需藉助其他軟件，只需在 Figma 內部便可輕鬆完成各類圖形的勾畫、上色與漸變效果，極大地簡化了設計流程。Figma Site

蘋果攜手Anthropic，共同打造AI驅動的編程新平臺

在人工智能迅猛發展的時代，蘋果公司決定與 AI 初創企業 Anthropic 展開合作，共同開發一款名爲 “氛圍編碼” 的新軟件平臺。這個平臺將作爲 Xcode 的新版本，利用 Anthropic 的 Claude Sonnet 模型，旨在提升內部代碼的編寫、編輯和測試效率。據悉，“氛圍編碼” 軟件的核心功能是通過 AI 技術來優化蘋果的內部工作流程。蘋果希望通過這一新平臺來加速產品開發，同時提高開發人員的工作效率。這一舉措不僅體現了蘋果在 AI 領域的進軍決心，也顯示出其對提升開發效率的高度重視。儘管當前

學而思推出全新學習機，AI 智能交互助力孩子個性化學習

日前，學而思在新品發佈會上正式推出了 P、S、T 三大系列學習機，旨在通過 “好 AI + 好內容” 來重塑學生的學習體驗。在 “好 AI” 方面，學而思藉助自主研發的九章大模型與 DeepSeek 雙核大模型，全面升級了智能學習系統。該學習機還提供了 “小思 AI1對1” 智能交互功能，旨在引導學生主動探索，提升個性化學習的效率。注：圖片來自官網截圖新款學習機在內容方面同樣表現不俗。學而思表示，學習機目前的課程總量已達1600萬分鍾，並新增了400萬分鐘的精品課程與85萬套真題。爲了緊

北大、清華聯合發佈！大模型邏輯推理能力新突破

在當前人工智能領域，大語言模型（LLMs）取得了顯著成就，但其邏輯推理能力依然顯得不足。爲了提升這一能力，來自北京大學、清華大學、阿姆斯特丹大學、卡內基梅隆大學以及阿布扎比的 MBZUAI 等五所高校的研究人員，聯合發佈了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》綜述論文，聚焦於邏輯推理的兩大關鍵問題:邏輯問答和邏輯一致性。研究表明，大語言模型在處理複雜邏輯推理時存在明顯的短板。例如，在邏輯問答任務中，當給定一系列前提時，模型往往無法生成正確的

Agent-as-a-Judge：用AI智能體來評估AI智能體的工作 節省97% 的時間