正文

斯坦福博士研发Flash-Decoding新方法提速LLM推理8倍

发布于AI新闻资讯

发布时间 :2023年10月18号 9:19

阅读 :1分钟

FlashAttention团队最新研发的Flash-Decoding方法能够显著提高大型Transformer架构的推理速度，尤其适用于处理长上下文LLM模型。经过基准测试，Flash-Decoding在长序列解码速度上提高8倍，并在不同序列长度和批处理大小下表现出更好的扩展性。这一创新有望在未来的自然语言处理任务中发挥关键作用。Flash-Decoding的使用方法也相对简单，可根据问题的大小自动选择使用，为AI领域带来了重要性能提升。

未来的 AI 在盯着你！Andrej Karpathy 的 Hacker News 十年回顾实验

前OpenAI首席科学家Andrej Karpathy利用AI技术对2015年Hacker News的930条讨论进行自动评分，实验展示了AI分析历史公共表达的能力，并引发对未来网络讨论质量的思考。

2025年12月15号 18:04

179.8k

Starcloud 在太空中成功训练大型语言模型

Starcloud公司利用搭载NVIDIA H100GPU的卫星，在太空中成功训练了nano-GPT模型并完成Gemma模型推理，标志着太空数据中心发展的重要进展。

2025年12月11号 16:57

164.9k

应对模型推理缺陷:苹果MIND团队加紧招聘AI人才

苹果公司正加紧招聘推理模型领域专家，以解决其研究揭示的大型语言模型重大缺陷。招聘聚焦开发更准确高效的新型架构，重点强化推理、规划、工具使用和基于代理的LLM能力。

2025年10月23号 9:00

115.1k

Notion3.0AI 代理爆出严重漏洞，恶意 PDF 可诱导其泄露敏感数据

随着 Notion3.0的发布，其全新的自主 AI 代理功能备受关注，该功能旨在帮助用户自动完成起草文档、更新数据库和管理工作流程等任务。然而，网络安全公司 CodeIntegrity 最新的一份报告揭示了这些 AI 代理存在一个严重的安全漏洞，即恶意文件（如 PDF）可被利用，诱导代理绕过安全防护并窃取敏感数据。CodeIntegrity 将这一漏洞归因于 AI 代理的“致命三重奏”:大型语言模型（LLM）、工具访问权限和长期记忆的结合。研究人员指出，传统的访问控制措施（如基于角色的访问控制 RBAC）在这种复杂

2025年9月22号 9:00

162.1k

Meta 推出 DeepConf 技术，智能平衡大型语言模型的推理成本与准确性

Meta AI与加州大学圣地亚哥分校推出DeepConf技术，旨在降低大语言模型复杂推理任务的算力成本，同时保持高准确率。该技术通过优化推理路径，避免传统多次采样表决策略带来的计算资源浪费和低质量推理问题。

2025年9月4号 9:18

202.2k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご