正文

大模型评测乱象调查:参数规模不代表一切

发布于AI新闻资讯

发布时间 :2023年9月25号 9:54

阅读 :1分钟

随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。

爆火的DeepSeek-V4 背后：北大开源框架One-Eval如何终结AI测评“噩梦”？

DeepSeek-V4发布仅10小时，北京大学DCAI团队便通过最新开源的One-Eval评测框架，快速生成全量自动化评测报告。传统大模型评测流程繁琐，需耗费大量精力在搭建测试管道上，而One-Eval显著提升了效率，标志着行业进入新阶段。

2026年4月28号 10:30

178.1k

只需2%参数就能“干翻”GPT-4o？阿里通义千问Qwen 3. 5 小模型杀疯了！

阿里通义千问Qwen 3.5系列小模型打破“参数量决定智商”的常规认知。其中仅40亿参数的Qwen 3.5-4B在第三方测试中，与参数量过千亿的GPT-4o同台竞技，表现不落下风甚至略胜一筹。这标志着国产大模型在本地部署和效率优化上取得重要突破，开启“以小博大”的新时代。

2026年3月9号 9:46

238.9k

“百模大战”家家第一,大模型“跑分”作弊何时休?

["📊 大模型的评测体系:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 大模型的应用趋势:文章提到大模型已经从模型端发展到应用端创新。","🔎 大模型的商业化问题:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]

2023年11月29号 9:08

157.4k

蚂蚁集团发布面向 DevOps 领域的大模型评测基准

["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]

2023年11月2号 15:21

149.0k

告别“无声视频”尴尬！字节AI音效生成模型SeedFoley上线即梦一键生成大片感音效

还在为短视频配音效抓耳挠腮?还在苦苦寻找合适的BGM却总是差强人意?现在，字节跳动直接放出王炸级AI黑科技，一举打破视频创作的最后一道静音魔咒!他们最新推出的SeedFoley音效生成模型，如同为视频注入了声命之魂，只需轻轻一点，就能为你的视频智能匹配专业级音效，瞬间让你的作品从默片变身有声大片，效果堪称惊艳!更令人振奋的是，这项AI音效神技已火速上线字节跳动旗下视频创作平台即梦，人人都能秒速体验一键音效加持的神奇魔力!SeedFoley究竟是如何做到如此声入人心的?其核

2025年3月14号 10:27

308.2k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご