Colossal-AI 团队通过低成本构建了中文版的 LLaMA-2 大模型,在多个评测榜单中取得了优异的成绩。他们开源了完整的训练流程、代码及权重,并提供了评估体系框架 ColossalEval。这一方案可用于构建任意垂类领域的大模型,为 AI 应用带来了更多的可能性。
相关推荐
马斯克点赞Kimi“注意力残差”研究,长文本大模型架构迎新突破
Kimi公司发布论文《Attention Residuals: Rethinking depth-wise aggregation》,提出注意力残差新方法,优化深度聚合机制。特斯拉CEO马斯克在社交媒体点赞,称其为“亮眼工作”。Kimi官方幽默回应,引发全球AI社区热议。
2026年3月17号 14:10
141.5k
智谱发布 GLM-5-Turbo:专为“龙虾”智能体优化的实干型基座模型
智谱AI发布GLM-5-Turbo模型,专为复杂任务设计,解决大模型在长链路任务中易“失速”问题。该模型通过重构训练数据,强化核心能力,旨在将AI从工具升级为全天候数字劳动力。
2026年3月17号 10:45
142.3k
大模型岗位需求翻倍!快手 2026 春招开启:AI 时代的“抢人”大战提前打响
快手启动2026年春招,面向2026届毕业生补录及2027届实习生招聘,动作迅速。招聘重点是大模型相关岗位,需求激增,显示AI人才争夺战加剧。
2026年3月13号 9:39
171.3k
科大讯飞上线AstronClaw:集成沙箱隔离技术并支持多大模型切换
科大讯飞推出企业级智能助手“AstronClaw”,主打安全协同,通过沙箱隔离技术保障数据隐私,支持云端一键部署,并与企业微信、钉钉等办公平台集成,助力企业高效应用大模型。
2026年3月13号 8:52
146.1k
通义千问核心骨干“跳槽”字节:大模型人才争夺战再次升级
阿里通义实验室近期进行架构调整,原Qwen团队被拆分,引发人才流动。继林俊旸离职后,原Qwen大模型后训练负责人郁博文也加盟字节跳动,担任Seed团队视觉模型与多模态交互团队的后训练负责人。这反映出国内大模型领域人才竞争加剧,行业格局正经历新一轮重构。
2026年3月12号 15:30
246.3k
