隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
大模型評測亂象調查:參數規模不代表一切

隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
馬來西亞電信公司 Maxis 與華爲技術(馬來西亞)有限公司宣佈達成戰略合作,旨在通過人工智能(AI)和機器學習(ML)技術,提升網絡運營的智能化水平。這一合作不僅是爲了加速 Maxis 的數字化轉型,更是希望通過智能化的自我優化網絡技術,提升用戶體驗和運營效率。根據 Maxis 的聲明,此次合作將涵蓋一個全面的聯合項目,致力於將 AI 和 ML 技術深度整合進 Maxis 的網絡運營中。Maxis 已經在其運營中應用了一些 AI 能力,而此次合作將進一步探索如何通過 AI 和 ML 驅動的服務質量監控、自動網
硅基流動官微宣佈,即刻起,硅基流動SiliconCloud平臺的DeepSeek-R1&V3API支持批量推理(BatchInference)。用戶通過批量 API 發送請求到 SiliconCloud,不受實時推理速率限制的影響,預期可在24小時內完成任務。相比實時推理,DeepSeek-V3 批量推理價格直降50%,其中,3月11日至3月18日,DeepSeek-R1批量推理優惠價格直降75%,輸入價格爲 1元 / 百萬 Tokens、輸出價格爲4元 / 百萬 Tokens。批量推理可幫助用戶更高效處理生成報告、數據清洗等大批量數據處理任務,享受更低成本的 DeepSeek-R1& V3API 服務,適用於無需
硅基流動 SiliconCloud 平臺即日起正式推出 DeepSeek-R1& V3API 的批量推理(Batch Inference)功能。用戶現在可以通過批量 API 向 SiliconCloud 發送請求,擺脫實時推理速率的限制,並在預期24小時內完成大規模數據處理任務。此次更新的一大亮點是價格的大幅下調。DeepSeek-V3批量推理的價格相較實時推理直降50%。更令人驚喜的是,在3月11日至3月18日期間,DeepSeek-R1批量推理的優惠價格更是直降75%,輸入價格僅爲1元/百萬 Tokens,輸出價格爲4元/百萬 Tokens。批量推理功能的推出,旨在幫助用戶更高效地處理
谷歌近日推出了最新版本的 Gemma AI 模型 ——Gemma3,聲稱這是 “全球最強的單加速器模型”。與之前發佈的 Gemma AI 系列相比,Gemma3在性能上有了顯著提升,尤其適合只配備一張 Nvidia H100顯卡的開發者。該模型的設計初衷是爲了幫助開發者創建能夠在各種設備上運行的 AI 應用,從智能手機到工作站均可兼容。Gemma3支持超過35種語言,能夠分析文本、圖像及短視頻,使其在多媒體處理方面表現出色。谷歌還特別指出,Gemma3在單 GPU 主機上的性能超越了 Facebook 的 Llama、DeepSeek 及 OpenAI 的模型,成
在人工智能領域,創意寫作一直是一個相對新穎且具挑戰性的應用方向。然而,OpenAI 最近宣佈他們已成功訓練出一款 “新模型”,在這一領域表現出色,引起了廣泛關注。OpenAI 首席執行官 Sam Altman 在社交媒體平臺 X 上分享了這一激動人心的消息,並透露這個模型能夠精準把握 “元小說” 的氛圍。Altman 表示,這一新模型在創意寫作方面的表現讓他感到震驚。他曾要求該模型生成一篇關於 AI 和悲傷的短篇元小說,併發布了這篇由 AI 創作的長篇示例。他稱讚該模型在寫作時展示出的語言表
近日,國內知名醫療大模型評測平臺 MedBench 公佈了最新榜單,其中,螞蟻醫療團隊研發的螞蟻醫療大模型憑藉卓越表現,一舉奪得了評測榜單和自測榜單的雙料冠軍,分別以97.5和98.2的高分引發了業界的廣泛關注。螞蟻醫療大模型的成功離不開其團隊在醫療推理模型研發上的不斷努力。該團隊近期採用了基於強化學習的技術,打造了新一代的醫療推理模型。這一創新使得該模型不僅具備了較強的 “醫學思維” 推理能力,還能實現多模態交互,支持圖像、文本、音頻和視頻等多種形式的輸