文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关推荐
腾讯升级自研基础模型腾讯混元 并部署到内部产品
["腾讯扩展了广告人工智能模型的参数,提高定向和归因准确性。","腾讯升级自研基础模型腾讯混元并部署到内部产品。","腾讯云通过升级 MaaS 能力,在多个产品中应用大模型。","腾讯混元在广告、游戏、内容等领域发挥作用。","腾讯云推动大模型在各行业应用落地。"]
2023年11月16号 8:41
122.7k
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
2023年11月2号 15:21
143.2k
宇信科技发布金融行业大模型应用,包括 CodePal、DataSherpa 等
["宇信科技推出四款金融行业大模型应用和一个开发平台","产品包括 CodePal、DataSherpa、AI + 信贷助手、AI + 营销助手","CodePal 是金融行业应用软件开发人员的编程辅助工具","DataSherpa 能够快速判定金融数据的安全等级","AI + 信贷助手和 AI + 营销助手分别为信贷客户经理和零售金融客户提供辅助工具"]
2023年10月17号 14:39
141.5k
大模型评测乱象调查:参数规模不代表一切
["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]
2023年9月25号 9:54
143.2k
1亿美元A轮融资!以色列AI代理新锐Wonderful杀出重围,80%问题解决率引爆全球客服市场
以色列AI平台Wonderful完成1亿美元A轮融资,总融资额达1.34亿美元。区别于GPT套壳产品,其通过深度集成与本地化部署,在全球企业市场快速落地,获多家顶级风投青睐,展现强劲商业应用能力。
2025年11月12号 17:36
76.8k
