隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
相關推薦
爆火的DeepSeek-V4 背後:北大開源框架One-Eval如何終結AI測評“噩夢”?
DeepSeek-V4發佈僅10小時,北京大學DCAI團隊便通過最新開源的One-Eval評測框架,快速生成全量自動化評測報告。傳統大模型評測流程繁瑣,需耗費大量精力在搭建測試管道上,而One-Eval顯著提升了效率,標誌着行業進入新階段。
只需2%參數就能“幹翻”GPT-4o?阿里通義千問Qwen 3. 5 小模型殺瘋了!
阿里通義千問Qwen 3.5系列小模型打破“參數量決定智商”的常規認知。其中僅40億參數的Qwen 3.5-4B在第三方測試中,與參數量過千億的GPT-4o同臺競技,表現不落下風甚至略勝一籌。這標誌着國產大模型在本地部署和效率優化上取得重要突破,開啓“以小博大”的新時代。
“百模大戰”家家第一,大模型“跑分”作弊何時休?
["📊 <b>大模型的評測體系</b>:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 <b>大模型的應用趨勢</b>:文章提到大模型已經從模型端發展到應用端創新。","🔎 <b>大模型的商業化問題</b>:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
OpenAI 高管預測:AI 將於2025年底超越人類程序員
在最近的一期播客中,OpenAI 的首席產品官凱文・維爾(Kevin Weil)表示,人工智能有望在性編碼基準測試中在今年底之前超越人類程序員。這一言論是在與 Avalon 首席執行官瓦倫・梅亞(Varun Mayya)和 YouTuber 坦梅・巴特(Tanmay Bhat)進行對話時提出的。凱文回顧了近年來人工智能的快速發展,強調了 AI 編碼模型的顯著進步。圖源備註:圖片由AI生成,圖片授權服務商Midjourney在播客中,瓦倫提到根據 Anthropic 的相關研究,功能性代碼預計到2027年將實現99% 的自動化。他提到,Anthropic 的 Claude3.5Sonnet 和
