正文

GPT-4图形推理任务准确率仅33%，引发关注

发布于AI新闻资讯

发布时间 :2023年11月21号 16:52

阅读 :1分钟

最新研究显示，GPT-4在图形推理任务上仅有33%准确率，引发了对其图形处理能力的关注。研究者使用ConceptARC数据集测试，结果显示人类在同一任务上的平均准确率为91%，远高于GPT-4。研究方法引发质疑，包括受试者招募和输入方式，突显大型语言模型在某些任务上的局限性，呼吁深入审视研究方法。

OpenAI 心理安全负责人离职:跳槽对手 Anthropic，继续死磕 AI 伦理难题

OpenAI心理健康安全研究负责人安德莉亚·瓦隆内离职，加入竞争对手Anthropic的对齐团队，向此前离职的Jan Leike汇报。她曾主导GPT-4和GPT-5模型安全政策，其研究领域涉及AI情感依赖等争议问题。

日本数据科学家本田崇人推出开源编程语言“Sui”，旨在解决大语言模型生成代码的准确性问题，宣称可实现100%准确率。其设计理念源于日本美学“粋”，强调精炼与去除冗余，核心原则包括保证零语法错误率，并使用数字作为变量。

南洋理工大学推出首个全面评测大型语言模型处理电子病历能力的基准EHRStruct，涵盖11项核心任务、2200个样本，旨在评估模型在医疗数据理解、信息提取等方面的表现，推动医疗AI发展。

MIT研究团队开发出实例自适应缩放技术，可根据问题复杂度动态调整大型语言模型的计算资源，提升效率并降低能耗。该研究获多家机构支持，相关论文已于11月初发布。

OpenAI推出“忏悔”框架，训练AI模型主动承认不当行为或问题决策，旨在解决大语言模型因追求“符合预期”而可能产生虚假陈述的问题。该框架引导模型在给出主要答案后进行二次回应，详细说明其推理过程。

智启未来，您的人工智能解决方案智库