在人工智能領域的飛速發展中,編程智能體正逐漸成爲開發者的重要助手。近日,AI 大模型公司 MiniMax 宣佈推出一項全新的開源基準測試 ——OctoCodingBench,旨在評估編程智能體在代碼倉庫環境中對指令的遵循能力。這一基準測試的推出,將爲智能體的評估和優化提供新的方向。
那麼,爲什麼需要 OctoCodingBench 呢?目前的許多基準測試,例如 SWE-bench,主要關注智能體完成任務的能力,忽略了一個至關重要的方面:智能體在執行任務的過程中是否遵循了規定的規則。實際上,在真實的編程場景中,智能體不僅要生成正確的代碼,還必須遵守一系列系統級行爲約束、項目編碼規範和工具使用協議。這些規則確保了代碼的規範性與安全性,避免了在開發過程中的不必要錯誤。

OctoCodingBench 通過測試智能體對七種不同指令來源的遵循程度,提供了一個多維度的評估框架。這七種指令來源包括系統提示、系統提醒、用戶查詢、項目級約束、技能、記憶和工具架構。這種全面的評估方式能夠更好地反映智能體的實際能力。
值得注意的是,OctoCodingBench 採用二元檢查清單的評分機制,對每一項檢查進行客觀評定。這種方法使得評估結果更爲準確,能夠有效地區分任務完成率和規則遵循率。此外,OctoCodingBench 還支持多個腳手架環境,如 Claude Code、Kilo 和 Droid,這些都是實際生產環境中使用的工具。

發佈的 OctoCodingBench 數據集包含72個精選實例,涵蓋自然語言用戶查詢和系統提示等多種情境,同時還提供了2,422個評估檢查項,幫助開發者全面瞭解智能體的表現。所有測試環境都可以通過公開的 Docker 鏡像進行訪問,極大地方便了開發者的使用與測試。
通過 OctoCodingBench,MiniMax 不僅爲編程智能體的開發和評估設定了新標準,也推動了 AI 在軟件開發領域的進一步應用。
地址:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench
