隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
相關推薦
“百模大戰”家家第一,大模型“跑分”作弊何時休?
["📊 <b>大模型的評測體系</b>:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 <b>大模型的應用趨勢</b>:文章提到大模型已經從模型端發展到應用端創新。","🔎 <b>大模型的商業化問題</b>:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
阿里通義宣佈開源R1-Omni模型 可提升多模態情感識別能力
3月11日,通義實驗室團隊宣佈開源R1-Omni模型,爲全模態模型的發展帶來了新的突破。該模型結合了強化學習與可驗證獎勵(RLVR)方法,專注於提升多模態情感識別任務中的推理能力和泛化性能。R1-Omni的訓練分爲兩個階段。在冷啓動階段,團隊使用包含580條視頻數據的組合數據集進行微調,這些數據來自Explainable Multimodal Emotion Reasoning(EMER)數據集和HumanOmni數據集。這一階段旨在爲模型奠定基礎推理能力,確保其在進入RLVR階段前具備一定的多模態情感識別能力,從而保障後續訓練的平穩性、效率與穩定性。
AI大模型行業動態:新技術與合作的持續推進
在人工智能快速發展的背景下,AI 大模型的研究與應用正處於熱潮之中。最近,多家企業和機構在這一領域的最新動態引發了廣泛關注。首先,英偉達的市盈率在 ChatGPT 問世前的表現引起了華爾街的高度關注,專家們認爲,這一現象或許預示着將複製2008年蘋果公司的輝煌神話。與此同時,國泰君安的首席信息官俞楓表示,AI 大模型的崛起將推動證券行業進入 “智能認知” 時代,提升行業效率。圖源備註:圖片由AI生成,圖片授權服務商Midjourney不僅如此,廣州算力中心近日接入了阿里通義
新型人工智能工具有望提前預測大腦退化,或將徹底改變癡呆症治療
近日,麻省總醫院及布里根婦女醫院的研究人員開發了一款革命性的人工智能(AI)工具,能夠提前數年預測患者的大腦退化,進而爲早期治療提供機會。這項研究的成果發表於《阿爾茨海默病雜誌》,並顯示該 AI 工具通過分析睡眠期間的大腦活動微妙變化,使用腦電圖(EEG)進行預測。研究團隊對281名在初次睡眠研究時認知功能正常的65歲以上女性進行了爲期五年的追蹤觀察。在第二輪評估時,96名參與者發展爲認知障礙。研究人員提取了 EEG 數據中的腦電波模式,利用 AI 檢測深度睡眠期間
