淘天集团联合爱橙科技开源了大模型训练框架 Megatron-LLaMA,旨在提升大语言模型的训练性能,降低训练成本,并与 LLaMA 社区保持兼容性。框架在 32 卡训练上能够取得 176% 的加速,对网络不稳定也表现出高容忍度。Megatron-LLaMA 将关注自适应最优配置选择、模型结构改动的支持以及在不同硬件环境下的极致性能训练解决方案。
相关推荐
融资2.55亿美元:AI实验室Fundamental破茧而出,用Nexus模型重塑大模型分析能力
AI初创公司Fundamental结束隐身,宣布完成2.55亿美元A轮融资,投后估值达12亿美元。本轮由Oak HC/FT等多家机构领投,Perplexity和Datadog的CEO等也以个人身份参与。公司核心产品为基础模型Nexus,旨在与ChatGPT等主流大语言模型竞争。
2026年2月6号 14:17
133.9k
卡内基梅隆大学研发新 AI 系统:像“指挥家”一样实时修复 3D 打印缺陷
卡内基梅隆大学团队开发出基于大语言模型的3D打印实时纠错系统。该系统模仿交响乐团,由一个“指挥家”智能体协调四个专业智能体,自动检测并修复打印过程中的微小参数波动导致的错误,解决了传统开环系统易失败的问题。
2026年2月3号 10:38
160.1k
研究揭示就业寒冬早于 ChatGPT 问世,AI 冲击波早在2022年初已显现
研究揭示AI就业冲击早于ChatGPT发布。大数据分析显示,2022年初AI相关职业需求已开始下滑,比公众认知提前数月。
2026年1月27号 15:09
174.2k
一年狂飙500%!“AI教母”李飞飞再造神话,World Labs50 亿美元估值剑指世界模型
李飞飞创立的World Labs正进行50亿美元估值融资,计划筹资5亿美元,一年内估值翻五倍。这显示资本市场看好其领跑的下一条AI赛道,而非当前大语言模型竞争。
2026年1月26号 10:23
173.2k
东软集团携手 Cerence AI,打造未来智能座舱新体验
东软集团与Cerence AI达成战略合作,共同开发新一代智能座舱平台,聚焦智能语音与大语言模型技术,为全球车企提供高效、预集成的智能交互解决方案。东软将依托其NAGIC智能座舱平台,结合Cerence AI的前沿技术,满足市场对智能座舱日益增长的需求。
2026年1月22号 10:36
159.1k
