正文

淘天集团联合爱橙科技开源大模型训练框架 Megatron-LLaMA

发布于AI新闻资讯

发布时间 :2023年9月13号 15:15

阅读 :1分钟

淘天集团联合爱橙科技开源了大模型训练框架 Megatron-LLaMA，旨在提升大语言模型的训练性能，降低训练成本，并与 LLaMA 社区保持兼容性。框架在 32 卡训练上能够取得 176% 的加速，对网络不稳定也表现出高容忍度。Megatron-LLaMA 将关注自适应最优配置选择、模型结构改动的支持以及在不同硬件环境下的极致性能训练解决方案。

美团辟谣LongCat模型负责人离职，持续推进国产算力万亿大模型落地

美团7月27日否认LongCat团队基础模型负责人裴鹏离职传闻，称消息不实。裴鹏毕业于北大，2023年加入美团，先后任基座模型预训练负责人及LongCat基础模型负责人，全面主导大语言模型、多模态模型与Agent智能体的研发，并牵头万亿参数大模型LongCat-2.0的研发与落地。

2026年7月27号 13:54

209.8k

腾讯混元"合二为一"：多模态与大语言模型部门合并，姚顺雨统管冲全模态上限

据7月24日报道，腾讯于7月23日宣布将混元多模态模型部门与大语言模型部门合并，组建基础模型部，由首席AI科学家姚顺雨统率。此举旨在提升研发与协同效率，全力冲刺全模态模型的智能上限。整合早有伏笔，去年12月姚顺雨已接管大语言模型团队，如今双边归一，意味着腾讯集中资源推动多模态与语言深度融合，加速构建新一代统一基础模型，向全模态智能更高峰迈进。

2026年7月24号 14:48

283.9k

Epoch AI测试三大AI文本检测器:模仿人类文风后最高近三成内容漏检

Epoch AI研究显示，主流AI文本检测器能近乎完美识别普通AI生成内容，但当大语言模型刻意模仿特定作者写作风格时，准确率明显下降，科学写作最难辨别。实验测试了Pangram、GPTZero和Originality.ai三款工具，采用495篇涵盖博客、小说、科学的人类原创文本（均创作于ChatGPT问世前），发现风格模仿可有效逃逸检测。

2026年7月20号 9:24

166.7k

OpenAI人才流动：前研究员田永龙入职腾讯，深耕视觉语言模型研发

OpenAI前研究员田永龙加盟腾讯大语言模型部，专注视觉语言模型研发。此举被视为腾讯强化多模态大模型布局的关键引援，凸显前沿人才争夺激烈。

2026年7月9号 10:16

220.1k

以 AI 治理 AI：Reddit 升级自动化系统，日均拦截 2300 万条垃圾信息

Reddit 利用升级的大语言模型结合自动化工具，精准监测并打击高度隐蔽的AI生成垃圾内容，包括虚假行为与人为炒作，全力守护社区内容真实性。

2026年7月7号 11:41

198.6k

智启未来，您的人工智能解决方案智库