相关推荐
字节开源全新代码大模型评估基准“FullStack Bench”
12月5日,字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench,涵盖了超11类真实场景,支持16种编程语言,并包含3374个问题。这一基准相比之前的评估标准,在更广泛的编程领域中能更准确地评估大模型的代码开发能力,推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准,如HumanEval和MBPP,通常集中在基础和高级编程问题,而DS-1000则专注于数据分析和机器学习任务,且仅支持Python。xCodeEval则侧重于高级编程和数学领域,存在较大的应用场景和语言覆盖限
DeepSeek 发布开源代码大模型 DeepSeek Coder
["DeepSeek(深度求索)发布了开源代码大模型 DeepSeek Coder","DeepSeek Coder 是一个智能代码助手,可以生成各种代码","DeepSeek Coder 已经在 Hugging Face 和 GitHub 上开源","DeepSeek Coder 在国际权威数据集的测试中表现出色","DeepSeek 致力于探索 AGI 的本质,将推出更多研究成果"]
Mistral AI全面转型全栈服务商,筑起欧洲算力与定制化护城河
Mistral AI在巴黎峰会上宣布全面转型,从模型研发企业升级为覆盖算力、模型和应用的全栈AI供应商。为争夺算力自主权,公司已在巴黎建成40兆瓦数据中心,并计划继续重金投入基础设施,以应对全球大模型竞争。
百度文心发布PaddleOCR-VL-1.6:准确率破96.33%刷新文档解析SOTA
百度发布文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6评测中以96.33%准确率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,综合性能全球第一。该模型标志着多模态大模型在复杂文档理解与真实场景解析上的重大突破,支持超100种语言识别,用户覆盖广泛。
最高狂降97.5%!腾讯云大模型全面降价,彻底持平官方原厂价
腾讯云智能体开发平台宣布自6月3日起,对DeepSeek V4系列大模型进行大幅降价,其中主力模型DeepSeek-V4-Pro的推理输入和输出价格均降低75%,旨在降低企业与开发者的创新门槛,减少日常调用成本。
