相关推荐
阿里通义千问Qwen3-Max 在官网上线深度思考功能
阿里通义千问推出Qwen3-Max模型,新增“深度思考”模式,通过强化推理链分析和多步骤问题拆解,显著提升复杂任务处理效率。该模型参数量超1万亿,预训练数据达36T tokens,是目前规模最大、能力最强的版本,在代码和智能体能力方面均有明显进步。
2025年11月3号 9:06
147.0k
苹果推出全新 FS-DFM 模型,AI 长文本写作效率提升128倍!
苹果与俄亥俄州立大学联合推出FS-DFM模型,仅需8轮迭代即可生成媲美传统模型上千轮迭代的长文本,写入速度提升高达128倍,突破长文本生成效率瓶颈。该模型采用离散流匹配技术,区别于ChatGPT等逐字生成的自回归模型。
2025年10月14号 14:13
145.1k
蚂蚁发布万亿参数语言模型 Ling-1T,推理速度与能力引领行业新标杆
蚂蚁集团发布首款万亿参数开源模型Ling-1T,在推理、代码生成、数学计算等领域表现卓越,树立国产AI新标杆。该模型以超强推理速度与能力实现技术突破,测试中超越多款知名开源模型。
2025年10月9号 15:10
156.4k
谷歌DeepMind 发布 VaultGemma 具备差分隐私能力
谷歌 DeepMind 最近推出了一款名为 VaultGemma 的新型语言模型,这一创新的技术专注于用户隐私的保护。VaultGemma 不仅是开源的,而且是目前规模最大的具备差分隐私能力的语言模型,参数数量达到了惊人的10亿。这项技术的发布,标志着人工智能领域在保护用户数据隐私方面的重大进步。传统的大语言模型在训练过程中可能会不小心记住一些敏感信息,比如姓名、地址和机密文档等。为了应对这一挑战,VaultGemma 引入了差分隐私技术,通过在训练过程中添加可控的随机噪声,确保模型的输出无
2025年9月16号 14:49
131.1k
字节Seed推出全新 AgentGym-RL 框架:提升大规模语言模型的决策能力
研究聚焦于开发大规模语言模型代理,需强化学习框架支持其自主学习。当前缺乏从零训练的有效方法,不依赖监督微调,需探索多样化真实环境下的训练方案。
2025年9月11号 11:45
169.5k
