正文

“百模大戰”家家第一,大模型“跑分”作弊何時休?

aibase

發布於AI新閒資訊

時間 :Nov 29, 2023

閱讀 :1分鐘

文章分析了當前大模型評測體系中的“跑分亂象”,稱大模型榜單廣泛存在“家家第一”的情況。現有的開源跑分數據集會引發“刷題”現象;而封閉的私有數據集又會影響公平性。此外,部分榜單的評測維度也不夠科學全面。文章建議建立權威的評測體系,開源評測工具與流程以保證公平,但評測數據集則採用開放歷史+封閉正式的模式。此外,大模型的商業化遠比模型的參數和榜單排名更爲重要。

相關推薦

字節豆包灰測網約車服務，AI Agent加速重構服務入口

6月22日，字節跳動豆包在北京、杭州開啓網約車功能灰度測試，標誌着大模型從虛擬對話延伸至實體服務，成爲大廠重構本地生活流量入口的關鍵佈局。用戶無需跳轉第三方，只需在對話框口述需求，大模型即可精準識別起點等信息，打造全新自然語言交互出行體驗。

中興通訊與騰訊達成戰略合作，AI雲電腦將搭載原生Work Buddy

中興通訊與騰訊達成深度戰略合作，將推出搭載騰訊原生AI助手Work Buddy的AI雲電腦產品。這一“軟硬一體化”融合消息引發資本市場強烈反應，6月4日中興通訊AH股雙雙大漲，A股漲超5%，H股最高漲近8%，市場對雙方聯合拓展AI應用生態信心十足。

中國移動發佈MoMA平臺：開啓AI“水電煤”時代，Token成本降幅達30%

2026移動雲大會上，中國移動發佈MoMA模型服務平臺，推動大模型從實驗室走向千行百業，實現AI“隨處可用”。平臺核心優勢是聚合能力，通過統一API網關，用戶一次接入即可調用包括自研“九天”基座大模型在內的300餘款主流模型，實現“拎包入住”。

爆火的DeepSeek-V4 背後：北大開源框架One-Eval如何終結AI測評“噩夢”？

DeepSeek-V4發佈僅10小時，北京大學DCAI團隊便通過最新開源的One-Eval評測框架，快速生成全量自動化評測報告。傳統大模型評測流程繁瑣，需耗費大量精力在搭建測試管道上，而One-Eval顯著提升了效率，標誌着行業進入新階段。

字節跳動啓動前沿技術人才校招，面向全球博士生開放多個AI方向

字節跳動啓動校園招聘，面向全球博士生開放全職與實習崗位，優先考慮有頂會論文、專利、競賽獲獎或重大項目經歷的技術人才。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase