正文

顛覆代碼智能體評測標準！GitTaskBench 開創全新時代

發布於AI新閒資訊

時間 :Sep 1, 2025

閱讀 :1分鐘

近日，由中科院、北大、港科大等多所知名學術機構聯合研發的 GitTaskBench 正式推出，標誌着代碼智能體實戰交付的新標準時代的開啓。

現有的評測體系往往側重於代碼生成與封閉題目，無法全面反映開發者在實際工作中遇到的諸多挑戰，例如環境配置、依賴管理及跨倉庫資源整合等。因此，GitTaskBench 不僅僅關注代碼生成，更將整個開發流程納入評測範圍，首次實現了從倉庫理解、環境配置、增量開發到項目級交付的全鏈路評測。

該評測工具的核心在於 “框架 × 模型” 的經濟收益評估，不僅能爲學術界和業界提供深刻啓示，還爲創業者指明瞭方向。其開源版本涵蓋了7大模態、7個領域、24個子領域，以及54個真實任務，提供了真實的 GitHub 倉庫作爲測試基礎。每個任務都附有詳細的自然語言指令和輸入輸出格式，並配備任務特定的自動化評測機制，確保評測的高效性與準確性。

在 GitTaskBench 的測評框架中，整體編碼能力、任務導向執行和自主環境配置三大維度被系統性分析。這一全新評測體系不僅提高了代碼智能體的評估標準，也爲後續研究提供了寶貴的參考。

最令人振奮的是，GitTaskBench 引入了 “性價比” 這一概念，量化了任務完成的經濟效益。通過結合任務完成率、市場價值和質量係數，研究者能夠更準確地評估代碼智能體在不同領域的實際價值。這一創新爲未來的代碼智能體應用鋪平了道路，顯示出其在節約成本、提高效率方面的巨大潛力。

GitTaskBench 的發佈將會爲代碼智能體的評測與應用開闢全新的局面，使其能夠在實際工作中發揮更大的效用。

論文地址：https://arxiv.org/pdf/2508.18993

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

Anthropic在紐約曼哈頓租賃一棟16層辦公樓，計劃將當地員工擴至1000人，加速東海岸戰略佈局，以貼近金融與媒體中心的人才和客戶。此前紐約辦公室已是其除舊金山總部外的最大辦公點。

Jul 8, 2026

150.8k

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？

Rowboat是一款開源桌面AI助手，主打本地運行，以解決雲端隱私與冷啓動痛點。其核心在於建立長期上下文記憶，提供深度個性化體驗，有別於常規聊天搜索工具。

Jul 8, 2026

133.0k

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

微軟開始在Excel、Outlook等核心Office產品中，用自研MAI系列模型替代OpenAI和Anthropic模型，每週處理數萬條AI提示。此舉旨在打造更具成本競爭力的自主模型，削減高昂外部費用。微軟AI主管蘇萊曼表示，將“減少並最終消除”對外依賴，每年可省下天價賬單。

Jul 8, 2026

162.9k

Claude Cowork登陸網頁和手機端：超九成用戶拿它幹非編程活，跨設備接力幹活

Anthropic宣佈Claude Cowork智能體擴展至網頁及移動端，支持跨設備無縫延續會話與文件操作。該功能可跨文件、日曆、郵件、網頁等工具持續執行任務，覆蓋資料整理、文檔起草等知識型場景。數據顯示九成用途並非寫代碼，運營與創作佔據半壁江山。

Jul 8, 2026

161.1k

AI 電子寵物的進階：追覓推出內置大模型新品 Domi

追覓推出AI毛絨玩具電子寵物Domi，內置JoyInside大模型，主打兒童交互陪伴。Domi具備感知反饋能力，可通過喚醒詞對話和觸摸互動，突破傳統毛絨玩具侷限，提供更智能的陪伴體驗。

Jul 8, 2026

155.4k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

顛覆代碼智能體評測標準！GitTaskBench 開創全新時代

相關推薦

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？

​微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

Claude Cowork登陸網頁和手機端：超九成用戶拿它幹非編程活，跨設備接力幹活

AI 電子寵物的進階：追覓推出內置大模型新品 Domi

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook