相关推荐
腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench
腾讯混元团队与中国人民大学等机构联合开源了PlanningBench,这是一个用于评测和训练大语言模型规划能力的框架。它系统化地抽象了任务、约束和难度,覆盖30多种规划任务类型,支持数据生成与验证,旨在评估模型的实际规划能力。
2026年6月5号 17:34
289.4k
GPT 5.5 称霸 AI 漏洞挑战,DeepSeek 斩获“性价比之王”
安全研究员Kasra Rahjerdi通过构建含漏洞的图书评论应用,测试主流大语言模型的安全推理能力。他故意暴露谷歌移动端后端服务凭据,要求模型解包并识别以访问数据库。在每场2小时、预算10美元的严格条件下,评估了顶尖模型的表现。
2026年6月4号 16:55
242.7k
比亚迪首次证实自研人形机器人“尧舜禹”2026年将内部分署2万台
比亚迪执行副总裁李柯证实,公司正推进自研工业人形机器人项目“尧舜禹”,2022年立项,核心研发团队超4000人,原型机已迭代至第七代,双足行走速度1.5米/秒,额定负载50公斤,标志着比亚迪开启具身智能第二增长曲线。
2026年6月4号 16:37
281.0k
GPT-5. 5 拿下利用率冠军,DeepSeek V4 Pro斩获性价比之王!大模型网络安全攻防实测报告出炉
大语言模型在网络安全领域的推理能力正面临严峻考验。安全研究员Kasra Rahjerdi通过构建含有核心漏洞的图书评论APK,对主流大模型进行模拟黑客攻击测试,揭示其安全推理与漏洞利用的真实水平。测试限时2小时、单次预算10美元,直观展现了各模型在复杂逻辑挑战中的表现。
2026年6月4号 15:56
294.1k
联合国警告:2030 年中心水电耗将翻,AI 不容忽
联合国水、环境健康研究所最新报告指出,受人工智能(AI)激增影响,全球数据中心水消耗到2030年将翻倍。当前数据中心规模持续扩大,带来巨大环境成本。去年全球数据中心电力耗达448太瓦时,已超过沙特阿拉伯全国用电量,其中AI算力耗电占五分之一;水消耗达45万亿升,可满足撒哈拉以南非洲超6亿人用水需求。
2026年6月4号 10:28
173.4k
