文章分析了當前大模型評測體系中的“跑分亂象”,稱大模型榜單廣泛存在“家家第一”的情況。現有的開源跑分數據集會引發“刷題”現象;而封閉的私有數據集又會影響公平性。此外,部分榜單的評測維度也不夠科學全面。文章建議建立權威的評測體系,開源評測工具與流程以保證公平,但評測數據集則採用開放歷史+封閉正式的模式。此外,大模型的商業化遠比模型的參數和榜單排名更爲重要。
相關推薦
阿里通義千問 App 獨家冠名四大衛視春晚,AI 智能體首登藝術舞臺
阿里通義千問App繼投入30億元啓動“春節請客計劃”後,再獲東方衛視、浙江衛視、江蘇衛視及河南衛視四大馬年春晚獨家冠名權。與以往不同,通義千問將深度參與節目內容創作,作爲“AI演員”融入表演,利用AI視頻生成、圖像識別和實時問答等尖端技術,爲觀衆呈現科技感十足的春晚體驗。
Feb 3, 2026
152.7k
騰訊升級自研基礎模型騰訊混元 並部署到內部產品
["騰訊擴展了廣告人工智能模型的參數,提高定向和歸因準確性。","騰訊升級自研基礎模型騰訊混元並部署到內部產品。","騰訊雲通過升級 MaaS 能力,在多個產品中應用大模型。","騰訊混元在廣告、遊戲、內容等領域發揮作用。","騰訊雲推動大模型在各行業應用落地。"]
Nov 16, 2023
133.0k
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
Nov 2, 2023
148.9k
宇信科技發佈金融行業大模型應用,包括 CodePal、DataSherpa 等
["宇信科技推出四款金融行業大模型應用和一個開發平臺","產品包括 CodePal、DataSherpa、AI + 信貸助手、AI + 營銷助手","CodePal 是金融行業應用軟件開發人員的編程輔助工具","DataSherpa 能夠快速判定金融數據的安全等級","AI + 信貸助手和 AI + 營銷助手分別爲信貸客戶經理和零售金融客戶提供輔助工具"]
Oct 17, 2023
163.9k
大模型評測亂象調查:參數規模不代表一切
["參數量不是評判大模型的唯一標準,評測集的不同會導致排名差異巨大","主觀題比例上升也會影響排名,評測公正性容易受質疑","OpenCompass和FlagEval等第三方評測機構開始受關注","學界認爲還應考量模型魯棒性、安全性等多維度","真正全面有效的評測方式仍在探索中"]
Sep 25, 2023
130.3k
