隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
大模型評測亂象調查:參數規模不代表一切

隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
近日,國家超算互聯網平臺宣佈了一項重要更新:阿里 QwQ-32B 推理大模型正式集成至其 Chatbot 可視化對話服務與 API 在線調用服務。這一進展意味着用戶可以通過平臺體驗到更加智能和多樣化的對話服務,涵蓋學術研究、代碼生成和日常諮詢等多個場景。據瞭解,QwQ-32B 模型是由阿里 Qwen 團隊開發的,基於 Qwen2.5-32B 及強化學習技術構建。其在數學和代碼能力測試中均表現出色,特別是在 AIME24評測集和 LiveCodeBench 上,QwQ-32B 的表現不僅與 DeepSeek-R1相當,甚至超越了其他同類模型。這使得 QwQ-32B
在最新的採訪中,谷歌 DeepMind 的首席執行官德米斯・哈薩比斯(Demis Hassabis)表示,預計在未來五到十年內,人工通用智能(AGI)將迎來首個形態的誕生。然而,他也指出,當前在技術上仍面臨許多重要挑戰。圖源備註:圖片由AI生成,圖片授權服務商Midjourney哈薩比斯在 DeepMind 位於倫敦的辦公室接受了媒體的採訪。他強調,儘管現在的人工智能系統在特定任務上表現出色,但它們仍然缺乏許多基本能力。他將 AGI 定義爲 “能夠展現出人類所有複雜能力的系統”。在他看來,實現 AGI 的關鍵在
Zoom 公司宣佈了其 AI 助手 ——Zoom AI Companion 的新一輪功能升級,標誌着這一工具從個人助理向真正的 “智能代理” 轉變。這些新功能旨在提升用戶在視頻會議中的互動體驗和工作效率。Zoom 的首席產品官 Smita Hashim 表示,AI Companion 的演進將大大增強工作中的生產力和協作。Zoom AI Companion 的新增功能包括 “Zoom Tasks”,該功能能夠識別會議摘要、聊天記錄和電子郵件中的待辦事項,並自動完成相應的任務,如安排後續會議或生成文檔。預計這一功能將在本月底正式推出,用戶還可以將其嵌入
你是不是已經看慣了那些由AI生成的,雖然逼真但總感覺少了點“味道”的短視頻?現在,一項名爲長上下文調整 (Long Context Tuning, LCT) 的創新技術橫空出世,它讓AI視頻生成模型擁有了執導多鏡頭敘事視頻的能力,如同電影和電視劇那樣,在不同鏡頭之間自由切換,構建出更連貫、更引人入勝的故事場景。過去,頂尖的AI視頻生成模型,比如SoRA,Kling,Gen3,已經能夠創造出長達一分鐘的逼真單鏡頭視頻。但這與真實世界中,由多個鏡頭組成的敘事視頻(比如電影中的一個場景)的需求之
據韓聯社報道,三星電子會長李在鎔近日向公司高管發出嚴厲警告,稱三星集團已失去內生動力,正處於生死存亡關頭,並要求高管們必須以"置之死地而後生"的態度應對AI時代的挑戰。三星集團自上月底起組織了一場名爲"重塑三星力量"的大規模研討會,共有三星電子等子公司的2000多名高管參加。在研討會上播放的視頻中,李在鎔雖未露面但傳達了強烈信息:"重要的不是危機形勢,而是我們應對危機的態度,即使要犧牲眼前的利潤,也要爲未來投資。"參會的每位高管還收到了一塊刻有李在
根據最近的一項 CIO 報告,企業在人工智能(AI)領域的投資高達2.5億美元,儘管在證明投資回報率(ROI)方面面臨挑戰。商業領袖們正努力提高生產力,但新技術的集成往往需要重構現有應用、更新流程並激勵員工學習,以適應現代商業環境。QuickBlox 首席執行官 Nate MacLeitch 對136位高管進行了調查,以揭示 AI 採用的現實情況,探討領導者的首要任務、主要擔憂以及他們在2025年尋找可信工具的信息來源。圖源備註:圖片由AI生成,圖片授權服務商Midjourney調查結果顯示,選擇商業 AI 工具時,易