随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。
相关推荐
“百模大战”家家第一,大模型“跑分”作弊何时休?
["📊 <b>大模型的评测体系</b>:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 <b>大模型的应用趋势</b>:文章提到大模型已经从模型端发展到应用端创新。","🔎 <b>大模型的商业化问题</b>:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
百度发布文心4.5与X1大模型,价格大幅降低引关注
近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用户可在文心一言官网免费体验这两款先进的模型。文心4.5是百度首个原生多模态大模型,专注于多模态理解和逻辑推理,其性能在多项基准测试中超越了 GPT-4.5,API 调用价格仅为后者的1%。这一显著的价格优势,无疑会吸引更多开发者和企业的关注。文心大模型4.5在多模态理解方面取得了显著进展,具备了图形推理、图表分析、甚至对梗图、漫画、歌曲和电影的理解能力。在多个测试中,文心4.5的平均分达到了79.6,超过了 GPT-
开源图片超分模型Thera:可以提升图片清晰度,让模糊从此“下岗”
各位追求高清无码的视觉动物们,请注意!图像处理界又添一枚猛将——Thera,一款开源的任意尺度超分辨率模型,带着满满的黑科技和友好的开源姿态,闪亮登场啦! 这位新晋“美图秀秀Plus”不仅能让你的模糊照片重见天日,还能以你意想不到的灵活方式进行放大,简直是细节控们的福音,模糊党的克星!想放多大就多大?还在为固定倍数的图片放大而烦恼吗?Thera 告诉你,那都是过去式了!这款由苏黎世联邦理工学院和苏黎世大学的大佬们联手打造的神器,最引人注目的特点就是其任意尺度超
Anthropic将发布 Harmony 功能:让 AI 助手无缝接入本地文件
Anthropic正在积极开发一项名为 Harmony 的新功能,旨在使用户能够将本地文件目录集成到 Claude 的工作环境中。这一创新将使用户能够与文件进行更加流畅的互动,AI 助手可以直接读取、索引和分析目录中的内容。最近,Anthropic的代码库更新显示,Harmony 即将进入功能预览阶段。虽然该功能尚未正式发布,但我们已有机会进行测试。例如,当上传一个 Android 应用程序并要求 Claude 进行研究时,AI 能够系统地打开并索引每个文件,然后生成一份综合性的总结报告。此外,Harmony 还展示了上下文容
