随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。
相关推荐
“百模大战”家家第一,大模型“跑分”作弊何时休?
["📊 <b>大模型的评测体系</b>:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 <b>大模型的应用趋势</b>:文章提到大模型已经从模型端发展到应用端创新。","🔎 <b>大模型的商业化问题</b>:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
谷歌宣布停用经典 Google Assistant,用户将迁移至新助手 Gemini
谷歌公司日前发布公告,正式宣布将逐步停止经典版 Google Assistant 的服务,并计划将用户迁移至其新推出的 AI 助手 Gemini。这一决策标志着谷歌在语音助手领域迈出了重要的一步,预计将在未来几个月内完成迁移工作,并计划于2025年年底前在主流移动设备上全面停用经典版本。Google Assistant 自2016年随初代 Pixel 手机推出以来,一直致力于通过自然语言处理和语音识别技术来帮助用户控制智能家居、播放媒体及使用第三方应用。其初衷是成为 “全球最贴心的数字助手”,甚至能够帮助用户完
微软推出新AI聊天网页应用模板,助力.NET 开发者简化AI开发
上周,微软宣布推出一款新的 AI 聊天网页应用模板,目前处于预览阶段,旨在简化.NET 开发中的 AI 应用开发。此模板是微软在推动 AI 技术普及方面的又一重要举措,提供了在 Visual Studio、Visual Studio Code 以及.NET CLI 中使用的脚手架和指导。图源备注:图片由AI生成,图片授权服务商Midjourney根据微软的介绍,这款.NET AI 聊天模板帮助开发者迅速构建智能聊天应用。模板基于 Blazor 框架,利用了 Microsoft.Extensions.AI 和 Microsoft.Extensions.VectorData 抽象,遵循了聊天应用中常用的检索增强生成(RAG)模式
智谱华章再获5亿投资,计划建设城市级大模型空间
在人工智能领域持续扩展的背景下,北京智谱华章科技有限公司(以下简称 “智谱”)近日获得了珠海华发集团的5亿元战略投资,此次融资是智谱在一个月内的第二次融资。值得一提的是,智谱在3月初已经获得了来自杭州国资等机构的10亿元投资。这一系列资金注入将助力智谱推动其核心技术 —— 基座大模型 GLM 的创新和生态发展。3月13日,珠海华发集团与智谱签署了合作协议,双方将共同建设首个城市级 GLM 大模型空间,命名为 “智谱 + 珠海华发空间”。珠海华发集团作为珠海最大的
