隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
大模型評測亂象調查:參數規模不代表一切

隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
在最近的一期播客中,OpenAI 的首席產品官凱文・維爾(Kevin Weil)表示,人工智能有望在性編碼基準測試中在今年底之前超越人類程序員。這一言論是在與 Avalon 首席執行官瓦倫・梅亞(Varun Mayya)和 YouTuber 坦梅・巴特(Tanmay Bhat)進行對話時提出的。凱文回顧了近年來人工智能的快速發展,強調了 AI 編碼模型的顯著進步。圖源備註:圖片由AI生成,圖片授權服務商Midjourney在播客中,瓦倫提到根據 Anthropic 的相關研究,功能性代碼預計到2027年將實現99% 的自動化。他提到,Anthropic 的 Claude3.5Sonnet 和
近日,小米大模型團隊在音頻推理領域的研究中取得了突破性進展,成功應用強化學習算法於多模態音頻理解任務,準確率達到了64.5%,這一成就使其在國際權威的 MMAU 音頻理解評測中奪得了第一名。這一成果的背後,離不開團隊對 DeepSeek-R1的啓發。MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是衡量音頻推理能力的重要標準,通過對包含語音、環境聲和音樂的多種音頻樣本進行分析,測試模型在複雜推理任務中的表現。人類專家的準確率爲82.23%,而當前榜單上表現最好的模型是
在中國人工智能領域的不斷演進中,李開復創辦的 AI 公司 “零一萬物” 於2025年3月17日宣佈推出其全新的萬智企業大模型一站式平臺。該平臺旨在爲企業提供定製化的 DeepSeek 部署解決方案,助力企業高效應用大模型技術。萬智企業大模型一站式平臺預裝了多款高性能 GPU,如昇騰等,內置 DeepSeek 全系列模型,靈活支持前沿的 AI 模型架構,滿足企業在搜索和數據處理上的需求。李開復指出,該平臺的 AI 搜索產品準確性高達88%,有效減少了大模型的幻覺問題,顯著提升了信息檢索的準確性和
3月17日,釘釘宣佈推出一項重磅AI能力——AI客服助理,該功能可自動接入企業官網、公衆號等平臺,直接服務消費者和企業客戶。這一創新舉措一經推出便受到企業客戶的廣泛歡迎,目前已有包括雲深處科技、Rokid(樂奇)、瑞德林、艾爲電子、精準學等在內的700多家企業接入使用。
小米技術官方微博宣佈,小米大模型團隊在音頻推理領域取得了顯著進展。他們在受到 DeepSeek-R1的啓發後,率先將強化學習算法應用於多模態音頻理解任務。團隊在短短一週內便以64.5% 的 SOTA(State Of The Art)準確率,登頂國際權威的 MMAU 音頻理解評測榜,並同步將相關技術開源。MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是一個測試音頻推理能力的重要標準,涵蓋了一萬條語音、環境音和音樂樣本,旨在考察模型在多種技能上的表現。人類專家在該評測集上的準確率爲82.23%,而
企查查App顯示,近日,杭州深度求索人工智能基礎技術研究有限公司申請註冊多枚DeepSeek Chat 商標,國際分類涉及教育娛樂、廣告銷售等,當前商標狀態爲註冊申請中。