正文

大模型評測亂象調查:參數規模不代表一切

發布於AI新閒資訊

時間 :Sep 25, 2023

閱讀 :1分鐘

隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。

爆火的DeepSeek-V4 背後：北大開源框架One-Eval如何終結AI測評“噩夢”？

DeepSeek-V4發佈僅10小時，北京大學DCAI團隊便通過最新開源的One-Eval評測框架，快速生成全量自動化評測報告。傳統大模型評測流程繁瑣，需耗費大量精力在搭建測試管道上，而One-Eval顯著提升了效率，標誌着行業進入新階段。

Apr 28, 2026

178.1k

只需2%參數就能“幹翻”GPT-4o？阿里通義千問Qwen 3. 5 小模型殺瘋了！

阿里通義千問Qwen 3.5系列小模型打破“參數量決定智商”的常規認知。其中僅40億參數的Qwen 3.5-4B在第三方測試中，與參數量過千億的GPT-4o同臺競技，表現不落下風甚至略勝一籌。這標誌着國產大模型在本地部署和效率優化上取得重要突破，開啓“以小博大”的新時代。

Mar 9, 2026

237.0k

“百模大戰”家家第一,大模型“跑分”作弊何時休?

["📊 大模型的評測體系:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 大模型的應用趨勢:文章提到大模型已經從模型端發展到應用端創新。","🔎 大模型的商業化問題:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]

Nov 29, 2023

172.3k

螞蟻集團發佈面向 DevOps 領域的大模型評測基準

["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]

Nov 2, 2023

160.1k

OpenAI 高管預測：AI 將於2025年底超越人類程序員

在最近的一期播客中，OpenAI 的首席產品官凱文・維爾（Kevin Weil）表示，人工智能有望在性編碼基準測試中在今年底之前超越人類程序員。這一言論是在與 Avalon 首席執行官瓦倫・梅亞(Varun Mayya)和 YouTuber 坦梅・巴特(Tanmay Bhat)進行對話時提出的。凱文回顧了近年來人工智能的快速發展，強調了 AI 編碼模型的顯著進步。圖源備註：圖片由AI生成，圖片授權服務商Midjourney在播客中，瓦倫提到根據 Anthropic 的相關研究，功能性代碼預計到2027年將實現99% 的自動化。他提到，Anthropic 的 Claude3.5Sonnet 和

Mar 17, 2025

268.9k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご