文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关推荐
腾讯升级自研基础模型腾讯混元 并部署到内部产品
["腾讯扩展了广告人工智能模型的参数,提高定向和归因准确性。","腾讯升级自研基础模型腾讯混元并部署到内部产品。","腾讯云通过升级 MaaS 能力,在多个产品中应用大模型。","腾讯混元在广告、游戏、内容等领域发挥作用。","腾讯云推动大模型在各行业应用落地。"]
2023年11月16号 8:41
146.0k
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
2023年11月2号 15:21
145.2k
宇信科技发布金融行业大模型应用,包括 CodePal、DataSherpa 等
["宇信科技推出四款金融行业大模型应用和一个开发平台","产品包括 CodePal、DataSherpa、AI + 信贷助手、AI + 营销助手","CodePal 是金融行业应用软件开发人员的编程辅助工具","DataSherpa 能够快速判定金融数据的安全等级","AI + 信贷助手和 AI + 营销助手分别为信贷客户经理和零售金融客户提供辅助工具"]
2023年10月17号 14:39
172.3k
大模型评测乱象调查:参数规模不代表一切
["参数量不是评判大模型的唯一标准,评测集的不同会导致排名差异巨大","主观题比例上升也会影响排名,评测公正性容易受质疑","OpenCompass和FlagEval等第三方评测机构开始受关注","学界认为还应考量模型鲁棒性、安全性等多维度","真正全面有效的评测方式仍在探索中"]
2023年9月25号 9:54
142.3k
Rokid 携手顶尖 AI 公司,推出未来感十足的智能眼镜!
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
2026年2月2号 11:44
103.8k
