在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构

测试结果显示,
AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但
然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,

在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构

测试结果显示,
AIbase 注意到,虽然测试数据中出现了模型理论上可连续工作超过20小时的数值,但
然而,也有专家对该测试的局限性提出了质疑。目前 METR 仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。但不可否认的是,
Perplexity首席执行官Aravind Srinivas指出,AI进步不会颠覆智能手机市场,反而会使iPhone演变为“数字护照”。随着AI系统依赖上下文生成结果,存储支付、健康、通信等个人数据的iPhone成为关键基础设施,重要性随AI能力提升而凸显,苹果芯片是长期被低估的优势。
游戏行业正广泛采用人工智能,尤其是生成式AI。育碧要求所有应聘者具备相关经验,《ARC Raiders》开发商则用AI彻底改革开发流程。尽管部分3A大作保持谨慎,但AI已成为行业趋势。
美团近日启动万亿参数级AI大模型测试,该模型完全基于国产算力集群训练,标志着国产技术应用取得重大突破。目前仅对受邀用户开放,尚未全面普及,展现了美团在AI领域的领先布局。
DeepSeek于4月24日发布新一代大模型DeepSeek-V4,性能比肩顶级闭源模型,成为开源AI里程碑。它支持100万tokens超长上下文,适用于长文档分析、代码生成和多轮任务。同时推出轻量版Flash和标准版,分别满足快速迭代与深度应用需求。
深度求索(DeepSeek)发布DeepSeek-V4预览版并开源,实现1M超长上下文标准化,在Agent协作、知识及推理性能上领先国内及开源领域。双版本布局:Pro版(1.6T参数,激活49B)性能对标顶级闭源模型,Flash版兼顾效率,满足不同应用需求。