隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
相關推薦
“百模大戰”家家第一,大模型“跑分”作弊何時休?
["📊 <b>大模型的評測體系</b>:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 <b>大模型的應用趨勢</b>:文章提到大模型已經從模型端發展到應用端創新。","🔎 <b>大模型的商業化問題</b>:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
Reka AI 發佈全新開源模型 Reka Flash 3:21 億參數的通用推理模型
在當前快速發展的人工智能領域,開發者和組織面臨着多種實際挑戰,例如高計算需求、延遲問題以及缺乏真正靈活的開源模型等。這些問題常常限制了進展,許多現有的解決方案需要昂貴的雲基礎設施,或者過大,無法在設備上應用,因此迫切需要高效且靈活的模型來填補這一空白。爲此,Reka AI 推出了 Reka Flash3,這是一款從零開始構建的推理模型,擁有21億個參數。該模型旨在支持一般對話、編碼輔助、指令跟隨,甚至函數調用,成爲各種應用的實用基礎。其訓練過程結合了公開獲取的
超聚變推出新型AI政法一體機,助力政法單位高效辦公
超聚變公司與視聯動力聯合推出了一款名爲 FusionOne 的 AI 政法大模型一體機,旨在爲政法單位提供更加高效和安全的辦公解決方案。這款一體機通過集成 DeepSeek 技術,支持快速部署和操作,大大簡化了用戶的使用過程。FusionOne AI 政法大模型一體機的推出,標誌着超聚變在智能政法領域的重要一步。該設備的設計理念是通過將推理引擎、模型、應用及加速算子進行一站式打包,用戶在收到設備後,無需經過複雜的部署、配置和模型調優,就可以迅速投入使用。這一特點尤其適合需要快速響
原字節跳動AI高管駱怡航加入生數科技任CEO 推進AI視頻生成商業化
據鳳凰科技報道,駱怡航近日正式加入生數科技擔任CEO,全面負責公司研發、產品、商業化及團隊管理。作爲清華大學自動化系博士,他在雲計算及AI領域深耕十餘年,擁有深厚的技術背景和商業化經驗。在加入生數科技前,駱怡航擔任字節跳動火山引擎AI應用產品線負責人,直接彙報火山引擎總裁。據透露,該產品線由他從零組建,覆蓋多個AI相關產品,管理規模數百人。此前,他還參與了字節跳動早期的AI中臺規劃與建設。業內人士評價,駱怡航在AI技術規劃、產品規劃、商業拓展及團隊
