螞蟻集團聯合北京大學發佈了面向 DevOps 領域的大語言模型評測基準 ——DevOps-Eval。該評測基準包含了計劃、編碼、構建、測試、發佈、部署、運維和監控等 8 個類別的選擇題,共計 4850 道題目。此外,還針對 AIOps 任務做了細分,並添加了日誌解析、時序異常檢測、時序分類和根因分析等任務。評測結果顯示各模型得分相差不大。螞蟻集團表示,未來將繼續優化基準,豐富評測數據集,重點關注 AIOps 領域,並增加更多的評測模型。