隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
相關推薦
“百模大戰”家家第一,大模型“跑分”作弊何時休?
["📊 <b>大模型的評測體系</b>:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 <b>大模型的應用趨勢</b>:文章提到大模型已經從模型端發展到應用端創新。","🔎 <b>大模型的商業化問題</b>:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
重生之我在小紅書給AI當老闆 元寶動不動崩潰,DeepSeek天天摸魚
這年頭,誰還沒個AI打工仔?但你見過直接在羣聊裏遙控AI軍團的賽博老闆嗎?最近,小紅書上就火爆了這樣一股清奇畫風——網友們紛紛化身AI公司的“霸道總裁”,在羣聊裏對一衆AI模型指點江山,發號施令,上演了一出啼笑皆非的AI職場大戲。始作俑者是小紅書網友Komorebi,她的一條也是當上AI的領導了的圖文筆記,瞬間點燃了網友們的玩梗熱情。只見她煞有介事地建了一個工作羣,自己當起了人類CEO,一本正經地指揮羣裏的AI員工們打卡簽到。更精彩的是,這羣AI打工仔收到老闆指令後的
視頻局部編輯技術VideoPainter:輸入提示詞自動識別修改,支持長視頻
VideoPainter是一款基於深度學習的編輯神器,猶如一位靈巧的魔術師,能夠通過簡單的提示詞,自動識別並修改視頻內容,尤其適合長視頻處理。輸入提示詞,自動識別內容想象一下,您正在觀看一段精彩的視頻,突然發現某個細節讓您感到不滿。以往,您可能需要費盡周折,逐幀調整,甚至重拍整個片段。但現在,有了 VideoPainter,您只需輸入簡短的提示詞,這個系統就能自動識別需要修改的內容,並完成編輯。就像是在對一位藝術家發出指令:“把這塊背景換成星空!” 於是,瞬間,您眼
Manus與阿里雲通義千問達成合作,共推國產AI智能體產品
人工智能Agent產品新秀Manus與阿里雲旗下大語言模型通義千問近日達成戰略合作。根據Manus在其視頻號"Manus AI"發佈的消息,雙方將基於通義千問系列開源模型,在國產模型和算力平臺上實現Manus的全部功能。目前兩家技術團隊已開始緊密協作,致力於爲中國用戶打造更具創造力的通用智能體產品。通義千問方面也證實了這一合作,並表示期待與更多全球AI創新者展開合作。據悉,Manus由中國AI初創公司蝴蝶效應(Butterfly Effect)開發,成立於2023年。該公司於2025年3月5日晚間發佈了Manus的早期預覽
