相关推荐
字节开源全新代码大模型评估基准“FullStack Bench”
12月5日,字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench,涵盖了超11类真实场景,支持16种编程语言,并包含3374个问题。这一基准相比之前的评估标准,在更广泛的编程领域中能更准确地评估大模型的代码开发能力,推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准,如HumanEval和MBPP,通常集中在基础和高级编程问题,而DS-1000则专注于数据分析和机器学习任务,且仅支持Python。xCodeEval则侧重于高级编程和数学领域,存在较大的应用场景和语言覆盖限
DeepSeek 发布开源代码大模型 DeepSeek Coder
["DeepSeek(深度求索)发布了开源代码大模型 DeepSeek Coder","DeepSeek Coder 是一个智能代码助手,可以生成各种代码","DeepSeek Coder 已经在 Hugging Face 和 GitHub 上开源","DeepSeek Coder 在国际权威数据集的测试中表现出色","DeepSeek 致力于探索 AGI 的本质,将推出更多研究成果"]
通义千问Qwen Code重磅升级至v0.5.0!从命令行工具迈向完整开发生态
阿里云通义实验室发布Qwen Code v0.5.0版本,国产AI编程工具从命令行工具升级为全链路开发生态平台。新版本强化核心编码能力,并突破插件集成、工程上下文理解和开发者协作支持,引入多工具协同架构,构建开发者“数字工作台”。
元宝 X 混元2025 年度报告发布:超7成用户请求选择快思考模式
元宝平台2025年报告显示,混元大模型实现AI能力多维度升级。平台提供“快思考”与“深度思考”两种模式:超七成用户选择“快思考”,近半数问题首轮即可解决;“深度思考”适用于复杂场景,对话通常持续三轮以上,近半数能输出多步骤结构化内容。图像交互方面,混元T1-Vis模型于5月上线。
Grok全面接管𝕏算法!每日分析超1亿帖子,彻底颠覆你的信息流体验
社交平台X(原Twitter)宣布其推荐系统全面升级,由xAI开发的Grok大模型驱动,从传统规则转向纯AI智能推荐。该变革旨在为全球用户提供更精准、个性化的内容体验,被视为社交媒体算法演进的重要里程碑。Grok每日处理超过1亿条帖子,支撑新系统的核心处理能力。
