隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
相關推薦
“百模大戰”家家第一,大模型“跑分”作弊何時休?
["📊 <b>大模型的評測體系</b>:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 <b>大模型的應用趨勢</b>:文章提到大模型已經從模型端發展到應用端創新。","🔎 <b>大模型的商業化問題</b>:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
OpenAI 高管預測:AI 將於2025年底超越人類程序員
在最近的一期播客中,OpenAI 的首席產品官凱文・維爾(Kevin Weil)表示,人工智能有望在性編碼基準測試中在今年底之前超越人類程序員。這一言論是在與 Avalon 首席執行官瓦倫・梅亞(Varun Mayya)和 YouTuber 坦梅・巴特(Tanmay Bhat)進行對話時提出的。凱文回顧了近年來人工智能的快速發展,強調了 AI 編碼模型的顯著進步。圖源備註:圖片由AI生成,圖片授權服務商Midjourney在播客中,瓦倫提到根據 Anthropic 的相關研究,功能性代碼預計到2027年將實現99% 的自動化。他提到,Anthropic 的 Claude3.5Sonnet 和
小米大模型團隊在音頻推理領域取得重大突破,登頂國際評測榜
近日,小米大模型團隊在音頻推理領域的研究中取得了突破性進展,成功應用強化學習算法於多模態音頻理解任務,準確率達到了64.5%,這一成就使其在國際權威的 MMAU 音頻理解評測中奪得了第一名。這一成果的背後,離不開團隊對 DeepSeek-R1的啓發。MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是衡量音頻推理能力的重要標準,通過對包含語音、環境聲和音樂的多種音頻樣本進行分析,測試模型在複雜推理任務中的表現。人類專家的準確率爲82.23%,而當前榜單上表現最好的模型是
李開復推出萬智企業大模型平臺,強調大模型競爭新方向
在中國人工智能領域的不斷演進中,李開復創辦的 AI 公司 “零一萬物” 於2025年3月17日宣佈推出其全新的萬智企業大模型一站式平臺。該平臺旨在爲企業提供定製化的 DeepSeek 部署解決方案,助力企業高效應用大模型技術。萬智企業大模型一站式平臺預裝了多款高性能 GPU,如昇騰等,內置 DeepSeek 全系列模型,靈活支持前沿的 AI 模型架構,滿足企業在搜索和數據處理上的需求。李開復指出,該平臺的 AI 搜索產品準確性高達88%,有效減少了大模型的幻覺問題,顯著提升了信息檢索的準確性和
