相关推荐
GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度
近日,一项由加州大学圣地亚哥分校认知科学系主导的研究为人工智能领域带来了里程碑式的突破:OpenAI最新模型GPT-4.5在标准图灵测试中,以“人格扮演”方式首次实现了超越人类的表现,成为目前最具类人对话能力的AI系统。这一成果不仅刷新了人们对AI语言能力的认知,也为AI在社会智能领域的应用潜力打开了新的想象空间。此次实验选取了四款具有代表性的AI系统进行对比测试,包括经典的1960年代聊天机器人ELIZA、Meta AI研发的LLaMa-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5。研究人员设计了两组
新研究显示:Anthropic 的 Claude AI 在合作能力上领先于 OpenAI 和谷歌模型
近日,一项新的研究论文揭示了不同 AI 语言模型在合作能力方面的显著差异。研究团队采用了一种经典的 “捐赠者游戏”,测试了 AI 代理在多代合作中如何共享资源。结果显示,Anthropic 的 Claude3.5Sonnet 表现出色,成功建立了稳定的合作模式,获得了更高的资源总量。而谷歌的 Gemini1.5Flash 和 OpenAI 的 GPT-4o 则表现不佳,尤其是 GPT-4o 在测试中逐渐变得不合作,Gemini 代理的合作程度也十分有限。研究团队进一步引入了惩罚机制,以观察不同 AI 模型的表现变化。结果发现,Claude3.5的表现有了显
即使是顶尖AI模型也难以应对复杂旅行规划, OpenAI o1-preview也犯难
最近,一项新研究显示,即便是先进的 AI 语言模型,比如 OpenAI 最新的 o1-preview,在复杂的规划任务中也显得力不从心。这项研究是由复旦大学、卡内基梅隆大学、字节跳动和俄亥俄州立大学的科学家们共同进行的,测试了 AI 模型在两个规划基准上的表现:BlocksWorld 和 TravelPlanner。在 BlocksWorld 这个经典的规划任务中,大多数模型的准确率都低于50%,只有 o1-mini(略低于60%)和 o1-preview(接近100%)的表现相对较好。然而,当研究者将目光转向更复杂的 TravelPlanner 时,所有模型的表现都令人失望。
新研究揭示小型 AI 语言模型在推理能力上的重大缺陷
最近,米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了深入调查,发现小型和便宜的模型在解决复杂问题时存在显著不足。这项研究的是一个名为 “组合 GSM” 的测试,目的是评估这些模型在解决链式的基础数学问题方面的表现。图源备注:图片由AI生成,图片授权服务商Midjourney研究人员结合了 GSM8K 数据集中的两个问题,使用第一个问题的答案作为第二个问题的变量进行测试。结果显示,大多数模型在这些复杂的推理任务中表现远低于预期,尤其是在小型
草莓终于来了!OpenAI重磅发布"o1"模型:推理能力超越人类
OpenAI于周四正式发布了备受期待的AI语言模型"o1"。这款被称为"Strawberry"的新模型声称在"推理"和问题解决能力方面较之前的大型语言模型有显著提升。o1模型系列目前以o1-preview和o1-mini两种形式推出,面向ChatGPT Plus用户和部分API用户开放使用。o1最引人注目的特点是其拟人化的思考过程。在回答问题前,o1会进入一种特殊的思考模式,将复杂问题分解成多个小步骤逐一解决,生成一条较长的内部思维链,从而得出更加准确的答案。这种技术被谷歌DeepMind称为"训练时计算"(Test-time computation),
