文章分析了當前大模型評測體系中的“跑分亂象”,稱大模型榜單廣泛存在“家家第一”的情況。現有的開源跑分數據集會引發“刷題”現象;而封閉的私有數據集又會影響公平性。此外,部分榜單的評測維度也不夠科學全面。文章建議建立權威的評測體系,開源評測工具與流程以保證公平,但評測數據集則採用開放歷史+封閉正式的模式。此外,大模型的商業化遠比模型的參數和榜單排名更爲重要。
相關推薦
騰訊升級自研基礎模型騰訊混元 並部署到內部產品
["騰訊擴展了廣告人工智能模型的參數,提高定向和歸因準確性。","騰訊升級自研基礎模型騰訊混元並部署到內部產品。","騰訊雲通過升級 MaaS 能力,在多個產品中應用大模型。","騰訊混元在廣告、遊戲、內容等領域發揮作用。","騰訊雲推動大模型在各行業應用落地。"]
Nov 16, 2023
137.6k
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
Nov 2, 2023
142.3k
宇信科技發佈金融行業大模型應用,包括 CodePal、DataSherpa 等
["宇信科技推出四款金融行業大模型應用和一個開發平臺","產品包括 CodePal、DataSherpa、AI + 信貸助手、AI + 營銷助手","CodePal 是金融行業應用軟件開發人員的編程輔助工具","DataSherpa 能夠快速判定金融數據的安全等級","AI + 信貸助手和 AI + 營銷助手分別爲信貸客戶經理和零售金融客戶提供輔助工具"]
Oct 17, 2023
155.4k
大模型評測亂象調查:參數規模不代表一切
["參數量不是評判大模型的唯一標準,評測集的不同會導致排名差異巨大","主觀題比例上升也會影響排名,評測公正性容易受質疑","OpenCompass和FlagEval等第三方評測機構開始受關注","學界認爲還應考量模型魯棒性、安全性等多維度","真正全面有效的評測方式仍在探索中"]
Sep 25, 2023
143.2k
螞蟻數科發佈多語種視覺大模型訓練框架,打破語言壁壘!
螞蟻數科在港金融科技節推出多語種多模態大模型訓練框架,突破多語言應用瓶頸。該技術針對埃及阿拉伯語等小語種,通過語言感知優化框架,實現“以目標語言思考”機制,提升資源稀缺語言的訓練效果。
Nov 4, 2025
78.7k
