微软推出 Agent Lightning:全新 AI 框架助力强化学习训练大规模语言模型

微软近日发布了 Agent Lightning，这是一个开源框架，旨在通过强化学习（RL）优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下，将真实代理行为转化为 RL 过渡，从而提升策略大规模语言模型(LLM)的性能。

Agent Lightning 将代理建模为一个决策过程，具体来说，它将代理形式化为部分可观测的马尔可夫决策过程。代理的观察为当前输入，行动为模型调用，而奖励则可以是终极奖励或中间奖励。该框架提取代理模型的调用记录，以及输入、输出和奖励信息，从而过滤掉多余的噪声，生成用于训练的干净过渡数据。

该框架采用 “训练代理解耦” 的方法，由 Lightning Server 进行训练和服务，并提供与 OpenAI 兼容的 API 接口，便于更新后的模型调用。而 Lightning Client 则在现有的代理运行时捕获调用记录，并将数据实时传回服务器。这一设计保持了工具、浏览器和其他依赖关系的紧密集成，同时将 GPU 训练放在服务器层。

Agent Lightning 支持两种追踪路径。默认路径使用 OpenTelemetry 进行数据收集，方便将代理的遥测信息传送至标准收集器。还有一种轻量级的嵌入式追踪器，适合不想部署 OpenTelemetry 的团队。最终，所有数据都存储在同一位置以供训练使用。

在实验方面，研究团队评估了三项任务，分别是文本转 SQL、检索增强生成和数学问答。文本转 SQL 使用 Spider 基准，涵盖超过10，000个问题和200个数据库。检索增强生成利用 MuSiQue 基准，建立在包含2100万文档的维基百科规模索引上。而数学问答则使用 Calc X 数据集，通过工具调用进行计算。每项任务的训练均显示出稳定的奖励提升。

论文:https://arxiv.org/abs/2508.03680v1

划重点:
🌟 Agent Lightning 是一个开源框架，支持在不重构现有系统的情况下优化多代理系统。
🚀 该框架将代理建模为部分可观测的马尔可夫决策过程，提取干净的训练过渡数据。
📈 实验显示，Agent Lightning 在文本转 SQL、检索增强生成和数学问答任务上均取得了显著的性能提升。

腾讯混元再迎大将：顶级科学家庞天宇加盟，领衔多模态强化学习

腾讯持续加码AI人才，近日迎来前新加坡Sea AI Lab高级研究科学家庞天宇加盟，他将担任混元多模态部首席研究科学家，重点负责强化学习技术研究，推动混元大模型在多模态领域发展。庞天宇拥有清华大学博士学位，是机器学习领域的知名青年学者。

2.6B参数碾压百亿级巨兽！Liquid AI最新实验性模型LFM2-2.6B-Exp发布

圣诞节当天，边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp，仅26亿参数，却在多项基准测试中表现优异，指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528，被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型，通过纯强化学习实现实验性突破。

微软推出 Agent Lightning:全新 AI 框架助力强化学习训练大规模语言模型

相关推荐

Cursor 发布 Composer1.5:强化学习规模提升20倍，性能实现跨越式增长

腾讯混元再迎大将：顶级科学家庞天宇加盟，领衔多模态强化学习

DeepMind 功勋老兵 David Silver 离职创业：押注强化学习，挑战大模型局限性

2.6B参数碾压百亿级巨兽！Liquid AI最新实验性模型LFM2-2.6B-Exp发布

OpenAI 推出 “忏悔” 机制旨在揭示 AI 潜在不当行为

微软推出 Agent Lightning:全新 AI 框架助力强化学习训练大规模语言模型

相关推荐

Cursor 发布 Composer1.5:强化学习规模提升20倍，性能实现跨越式增长

腾讯混元再迎大将：顶级科学家庞天宇加盟，领衔多模态强化学习

​DeepMind 功勋老兵 David Silver 离职创业：押注强化学习，挑战大模型局限性

2.6B参数碾压百亿级巨兽！Liquid AI最新实验性模型LFM2-2.6B-Exp发布

​OpenAI 推出 “忏悔” 机制 旨在揭示 AI 潜在不当行为

DeepMind 功勋老兵 David Silver 离职创业：押注强化学习，挑战大模型局限性

OpenAI 推出 “忏悔” 机制旨在揭示 AI 潜在不当行为