正文

螞蟻集團發佈面向 DevOps 領域的大模型評測基準

發布於AI新閒資訊

時間 :Nov 2, 2023

閱讀 :1分鐘

螞蟻集團聯合北京大學發佈了面向 DevOps 領域的大語言模型評測基準 ——DevOps-Eval。該評測基準包含了計劃、編碼、構建、測試、發佈、部署、運維和監控等 8 個類別的選擇題，共計 4850 道題目。此外，還針對 AIOps 任務做了細分，並添加了日誌解析、時序異常檢測、時序分類和根因分析等任務。評測結果顯示各模型得分相差不大。螞蟻集團表示，未來將繼續優化基準，豐富評測數據集，重點關注 AIOps 領域，並增加更多的評測模型。

螞蟻集團正式開源萬億級大模型Ling-2.6-1T，主打“快思考”智效比提升

螞蟻集團百靈大模型團隊今日開源萬億級旗艦模型Ling-2.6-1T，該模型不追求參數堆疊，而是優化指令執行、工具適配及長上下文能力。其創新混合架構通過強化獎勵策略降低Token開銷，實現高效“快思考”機制。

Apr 30, 2026

265.1k

智效比提升十倍：螞蟻集團百靈大模型Ling-2.6-flash正式開源

螞蟻集團百靈大模型今日開源Ling-2.6-flash，推出BF16、FP8、INT4等多量化版本，降低AI部署門檻。該模型總參數104B，激活參數7.4B，此前以匿名身份在國際評測平臺表現優異，並針對中英文切換與代碼生成完成多輪優化。

Apr 29, 2026

163.9k

螞蟻集團百靈大模型系列更新 Ling-2.6-flash正式開源

螞蟻集團百靈大模型系列更新，Ling-2.6-flash正式開放。該模型總參數104B，激活參數7.4B，提供BF16、FP8、INT4等多精度版本，適配不同硬件環境並降低部署門檻。此前以“Elephant Alpha”匿名在OpenRouter平臺測試。

Apr 29, 2026

162.1k

螞蟻集團亮相第九屆數字中國建設峯會，Data+AI應用成果首次集中展出

螞蟻集團在第九屆數字中國建設峯會上首次以“Data+AI”爲核心，展示從底層技術到產業應用的全棧佈局，標誌數據戰略升級至“智能可信流轉”新階段。通過將大模型融入生活場景，實現AI工具化落地，醫療AI應用“螞蟻阿福”已服務超1億用戶，並與福州市衛健委合作。

Apr 28, 2026

214.5k

爆火的DeepSeek-V4 背後：北大開源框架One-Eval如何終結AI測評“噩夢”？

DeepSeek-V4發佈僅10小時，北京大學DCAI團隊便通過最新開源的One-Eval評測框架，快速生成全量自動化評測報告。傳統大模型評測流程繁瑣，需耗費大量精力在搭建測試管道上，而One-Eval顯著提升了效率，標誌着行業進入新階段。

Apr 28, 2026

193.9k

智啟未來，您的人工智能解決方案智庫