相关推荐
字节开源全新代码大模型评估基准“FullStack Bench”
12月5日,字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench,涵盖了超11类真实场景,支持16种编程语言,并包含3374个问题。这一基准相比之前的评估标准,在更广泛的编程领域中能更准确地评估大模型的代码开发能力,推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准,如HumanEval和MBPP,通常集中在基础和高级编程问题,而DS-1000则专注于数据分析和机器学习任务,且仅支持Python。xCodeEval则侧重于高级编程和数学领域,存在较大的应用场景和语言覆盖限
DeepSeek 发布开源代码大模型 DeepSeek Coder
["DeepSeek(深度求索)发布了开源代码大模型 DeepSeek Coder","DeepSeek Coder 是一个智能代码助手,可以生成各种代码","DeepSeek Coder 已经在 Hugging Face 和 GitHub 上开源","DeepSeek Coder 在国际权威数据集的测试中表现出色","DeepSeek 致力于探索 AGI 的本质,将推出更多研究成果"]
OpenAI 删除 AI 安全造福人类核心承诺
OpenAI在最新税务文件中删除了“AI安全造福人类、不受营利需求约束”的核心使命承诺,与其创立时研发非营利性通用人工智能的初衷相悖,引发公众对其价值观转向商业化的担忧。
美国推出 AI 科研计划 公布 26 项关键科技挑战聚焦核聚变与量子等领域
美国推出“创世纪”AI科研计划,旨在巩固其在人工智能及前沿科技领域的领先地位。该计划涵盖26项关键科技挑战,聚焦科学发现、能源开发和国家安全三大方向,核心是借助AI技术加速科研突破,以实现“让美国再次伟大”的科技目标。所有挑战均以能为美国民众带来实际可衡量利益为筛选标准。
哲学博士为 Claude 注入数字灵魂,Anthropic 探索 AI 伦理新路径
Anthropic公司聘请哲学博士阿曼达·阿斯克尔为AI聊天机器人Claude塑造人格与道德体系。她通过非技术手段,如持续对话和设计大量提示词,为Claude建立专属道德准则,旨在赋予其明辨是非的能力。这一独特探索在AI伦理领域引发关注,试图为AI注入“数字灵魂”。
