SuperCLUE 发布了中文大模型 8 月榜单,其中包括总排行榜、OPEN 多轮开放问题排行榜、OPT 三大能力客观题排行榜、十大基础能力排行榜和开源排行榜。评测选取了 16 个通用大语言模型,并使用了 3337 道全新的测试题。此次评测发现,国内大模型在中文任务上的表现与 GPT3.5 的差距在持续缩小。
相关推荐
百度发布首款中文大模型AI眼镜:45克轻量设计,续航达56小时
百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品,展现了百度在可穿戴设备领域的创新实力。从硬件规格来看,小度AI眼镜在轻量化设计上取得突破,整机重量仅45克,确保佩戴舒适度。配备16MP超广角摄像头,集成AI防抖算法,可实现稳定的第一视角拍摄。在续航方面,官方数据显示待机时间可达56小时,支持超过5小时的持续聆听模式,同时具备30分钟快充能力。声学系统采用四麦克风阵列设计,配合开放式防漏音扬
智源研究院推出全球首个中文大模型辩论平台FlagEval Debate
北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
智源研究院发布代码生成训练数据集 TACO
["智源研究院发布了名为 TACO 的代码生成训练数据集,旨在为代码生成模型提供更具挑战性的训练数据和评测基准。","TACO 在数据规模、质量和评测方案上具有优势,包括更大规模的训练集和测试集,多样化的解题答案,以及细粒度的标签。","实验结果显示,当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异,说明该领域仍有提升空间。","TACO 不仅是一个挑战性的测试方法,还可用作改进模型性能的训练数据,促进代码生成领域的发展。"]
智谱 AI 发布中文 LLM 对齐评测基准 AlignBench
["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类,包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]
腾讯自研大模型混元2.0发布:多方面能力提升
腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开放了相关模型的API及平台服务。 全新发布的Tencent HY2.0采用混合专家(MoE)架构,总参数量高达4
