万万没想到,AI 不仅能在棋盘上 “厮杀”,在 “狼人杀” 这种尔虞我诈的社交游戏中,也展现出了惊人的智力! 最近,一场代号为 “Elimination Game” 的 AI “狼人杀” 基准测试火爆出炉, 结果简直让人 “虎躯一震”: GPT-4.5竟然在这场 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一众 AI “大佬” 都远远甩在了身后! 这不禁让人惊呼: AI 的 “社交智能” 已经进化到如此恐怖的程度了吗?



万万没想到,AI 不仅能在棋盘上 “厮杀”,在 “狼人杀” 这种尔虞我诈的社交游戏中,也展现出了惊人的智力! 最近,一场代号为 “Elimination Game” 的 AI “狼人杀” 基准测试火爆出炉, 结果简直让人 “虎躯一震”: GPT-4.5竟然在这场 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一众 AI “大佬” 都远远甩在了身后! 这不禁让人惊呼: AI 的 “社交智能” 已经进化到如此恐怖的程度了吗?


近日,OpenAI 正式宣布,将于 2025 年 7 月 14 日终止 GPT-4.5 预览版 API 服务。这一决定将对使用该服务的第三方开发者产生重大影响,尽管个人版的 ChatGPT 用户将不受影响。开发者们需在短短三个月内将自己的应用迁移到其他模型,以确保业务的持续运行。许多业内人士和开发者对这一消息表示困惑与失落,认为这一决策可能与运算成本和定价策略有关。随着 AI 技术的不断进步,OpenAI 需要调整其业务模式,以保持竞争力并满足市场需求。GPT-4.5 的关闭意味着,开发者需要寻找新的解决方案,
近日,OpenAI 向开发者发送了一封电子邮件,通知他们将在2025年7月14日从官方 API 中移除 GPT-4.5预览版。这一消息迅速在 AI 和机器学习社区引发热议。虽然 OpenAI 的发言人表示,GPT-4.5仍将可供个人 ChatGPT 用户使用,但对于依赖于这一强大模型的第三方开发者来说,这无疑是一项重大的打击。GPT-4.5预览版被许多开发者视为日常工作中的重要工具,因其出色的表现和可靠性而备受推崇。社交媒体平台 X 上的用户们对此反应不一,有人感到失望,也有人对这一决定表示困惑。有开发者甚至直接质
近日,一项由加州大学圣地亚哥分校认知科学系主导的研究为人工智能领域带来了里程碑式的突破:OpenAI最新模型GPT-4.5在标准图灵测试中,以“人格扮演”方式首次实现了超越人类的表现,成为目前最具类人对话能力的AI系统。这一成果不仅刷新了人们对AI语言能力的认知,也为AI在社会智能领域的应用潜力打开了新的想象空间。此次实验选取了四款具有代表性的AI系统进行对比测试,包括经典的1960年代聊天机器人ELIZA、Meta AI研发的LLaMa-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5。研究人员设计了两组
近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。该基金会由著名 AI 研究者 François Chollet 共同创立。根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。根据 Arc Prize 排行榜,诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2测试中的得分仅在1% 到1.3% 之间,而更为强大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大约在1%。ARC-AGI 测试包含了一系列拼图问题,要求 AI 从不同颜色的
近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用户可在文心一言官网免费体验这两款先进的模型。文心4.5是百度首个原生多模态大模型,专注于多模态理解和逻辑推理,其性能在多项基准测试中超越了 GPT-4.5,API 调用价格仅为后者的1%。这一显著的价格优势,无疑会吸引更多开发者和企业的关注。文心大模型4.5在多模态理解方面取得了显著进展,具备了图形推理、图表分析、甚至对梗图、漫画、歌曲和电影的理解能力。在多个测试中,文心4.5的平均分达到了79.6,超过了 GPT-