作为OpenAI和Anthropic之外最受关注的AI初创公司之一,Cohere在 7 月份的估值已高达 55 亿美元。这家公司的联合创始人之一正是“Attention Is All You Need”论文的作者,这篇论文被认为是引发大型语言模型(LLM)革命的关键。

图源备注:图片由AI生成,图片授权服务商Midjourney

作为OpenAI和Anthropic之外最受关注的AI初创公司之一,Cohere在 7 月份的估值已高达 55 亿美元。这家公司的联合创始人之一正是“Attention Is All You Need”论文的作者,这篇论文被认为是引发大型语言模型(LLM)革命的关键。

图源备注:图片由AI生成,图片授权服务商Midjourney
MiniMax M2模型采用全注意力机制,放弃线性或稀疏注意力技术。开发团队认为,尽管后者能节省计算资源,但全注意力在工业应用中更高效,能提升模型性能。这一决策旨在优化实际部署效果,推动AI技术发展。
Meta与爱丁堡大学合作开发CRV技术,通过分析大型语言模型内部推理电路,预测其推理正确性并修复错误。该方法构建模型激活计算图,高精度检测推理错误,提升AI可靠性。
苹果公司正加紧招聘推理模型领域专家,以解决其研究揭示的大型语言模型重大缺陷。招聘聚焦开发更准确高效的新型架构,重点强化推理、规划、工具使用和基于代理的LLM能力。
人工智能初创公司Viven利用大型语言模型和数据隐私技术,打造员工数字孪生,解决因休假或时区差异导致的关键信息缺失问题,避免项目停滞,降低时间成本。
大语言模型在数学几何题上表现不佳。GPT-4.1和Gemini-2.5-Pro虽在写作、编程领域优秀,但面对需画辅助线或函数图像的题目时频繁出错。根源在于模型擅长文本推理,却缺乏几何空间想象能力,无法精准脑中构图,导致错误结论。