文章分析了當前大模型評測體系中的“跑分亂象”,稱大模型榜單廣泛存在“家家第一”的情況。現有的開源跑分數據集會引發“刷題”現象;而封閉的私有數據集又會影響公平性。此外,部分榜單的評測維度也不夠科學全面。文章建議建立權威的評測體系,開源評測工具與流程以保證公平,但評測數據集則採用開放歷史+封閉正式的模式。此外,大模型的商業化遠比模型的參數和榜單排名更爲重要。
相關推薦
中國移動發佈MoMA平臺:開啓AI“水電煤”時代,Token成本降幅達30%
2026移動雲大會上,中國移動發佈MoMA模型服務平臺,推動大模型從實驗室走向千行百業,實現AI“隨處可用”。平臺核心優勢是聚合能力,通過統一API網關,用戶一次接入即可調用包括自研“九天”基座大模型在內的300餘款主流模型,實現“拎包入住”。
May 11, 2026
177.1k
爆火的DeepSeek-V4 背後:北大開源框架One-Eval如何終結AI測評“噩夢”?
DeepSeek-V4發佈僅10小時,北京大學DCAI團隊便通過最新開源的One-Eval評測框架,快速生成全量自動化評測報告。傳統大模型評測流程繁瑣,需耗費大量精力在搭建測試管道上,而One-Eval顯著提升了效率,標誌着行業進入新階段。
Apr 28, 2026
178.1k
字節跳動啓動前沿技術人才校招,面向全球博士生開放多個AI方向
字節跳動啓動校園招聘,面向全球博士生開放全職與實習崗位,優先考慮有頂會論文、專利、競賽獲獎或重大項目經歷的技術人才。
Apr 17, 2026
459.0k
阿里通義千問 App 獨家冠名四大衛視春晚,AI 智能體首登藝術舞臺
阿里通義千問App繼投入30億元啓動“春節請客計劃”後,再獲東方衛視、浙江衛視、江蘇衛視及河南衛視四大馬年春晚獨家冠名權。與以往不同,通義千問將深度參與節目內容創作,作爲“AI演員”融入表演,利用AI視頻生成、圖像識別和實時問答等尖端技術,爲觀衆呈現科技感十足的春晚體驗。
Feb 3, 2026
200.4k
騰訊升級自研基礎模型騰訊混元 並部署到內部產品
["騰訊擴展了廣告人工智能模型的參數,提高定向和歸因準確性。","騰訊升級自研基礎模型騰訊混元並部署到內部產品。","騰訊雲通過升級 MaaS 能力,在多個產品中應用大模型。","騰訊混元在廣告、遊戲、內容等領域發揮作用。","騰訊雲推動大模型在各行業應用落地。"]
Nov 16, 2023
151.7k
