近日,由中科院、北大、港科大等多所知名學術機構聯合研發的 GitTaskBench 正式推出,標誌着代碼智能體實戰交付的新標準時代的開啓。

現有的評測體系往往側重於代碼生成與封閉題目,無法全面反映開發者在實際工作中遇到的諸多挑戰,例如環境配置、依賴管理及跨倉庫資源整合等。因此,GitTaskBench 不僅僅關注代碼生成,更將整個開發流程納入評測範圍,首次實現了從倉庫理解、環境配置、增量開發到項目級交付的全鏈路評測。

image.png

該評測工具的核心在於 “框架 × 模型” 的經濟收益評估,不僅能爲學術界和業界提供深刻啓示,還爲創業者指明瞭方向。其開源版本涵蓋了7大模態、7個領域、24個子領域,以及54個真實任務,提供了真實的 GitHub 倉庫作爲測試基礎。每個任務都附有詳細的自然語言指令和輸入輸出格式,並配備任務特定的自動化評測機制,確保評測的高效性與準確性。

在 GitTaskBench 的測評框架中,整體編碼能力、任務導向執行和自主環境配置三大維度被系統性分析。這一全新評測體系不僅提高了代碼智能體的評估標準,也爲後續研究提供了寶貴的參考。

最令人振奮的是,GitTaskBench 引入了 “性價比” 這一概念,量化了任務完成的經濟效益。通過結合任務完成率、市場價值和質量係數,研究者能夠更準確地評估代碼智能體在不同領域的實際價值。這一創新爲未來的代碼智能體應用鋪平了道路,顯示出其在節約成本、提高效率方面的巨大潛力。

GitTaskBench 的發佈將會爲代碼智能體的評測與應用開闢全新的局面,使其能夠在實際工作中發揮更大的效用。

論文地址:https://arxiv.org/pdf/2508.18993