8 月榜单！SuperCLUE 中文大模型评测基准最新排名发布

SuperCLUE 发布了中文大模型 8 月榜单，其中包括总排行榜、OPEN 多轮开放问题排行榜、OPT 三大能力客观题排行榜、十大基础能力排行榜和开源排行榜。评测选取了 16 个通用大语言模型，并使用了 3337 道全新的测试题。此次评测发现，国内大模型在中文任务上的表现与 GPT3.5 的差距在持续缩小。

百度发布首款中文大模型AI眼镜：45克轻量设计，续航达56小时

百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品，展现了百度在可穿戴设备领域的创新实力。从硬件规格来看，小度AI眼镜在轻量化设计上取得突破，整机重量仅45克，确保佩戴舒适度。配备16MP超广角摄像头，集成AI防抖算法，可实现稳定的第一视角拍摄。在续航方面，官方数据显示待机时间可达56小时，支持超过5小时的持续聆听模式，同时具备30分钟快充能力。声学系统采用四麦克风阵列设计，配合开放式防漏音扬

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

智源研究院发布代码生成训练数据集 TACO

["智源研究院发布了名为 TACO 的代码生成训练数据集，旨在为代码生成模型提供更具挑战性的训练数据和评测基准。","TACO 在数据规模、质量和评测方案上具有优势，包括更大规模的训练集和测试集，多样化的解题答案，以及细粒度的标签。","实验结果显示，当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异，说明该领域仍有提升空间。","TACO 不仅是一个挑战性的测试方法，还可用作改进模型性能的训练数据，促进代码生成领域的发展。"]

智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类，包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站，提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]

通义千问正式接入苹果生态，国内Apple智能体验迎来重磅升级