マイクロソフトは最近、エージェント・ライトニングをリリースしました。これは強化学習(RL)を用いてマルチエージェントシステムを最適化するオープンソースフレームワークです。エージェント・ライトニングは、既存のエージェントアーキテクチャを変更することなく、現実のエージェント動作をRL遷移に変換し、大規模言語モデル(LLM)の性能を向上させます。

image.png

エージェント・ライトニングはエージェントを意思決定プロセスとしてモデル化し、具体的にはエージェントを部分的に観測可能なマルコフ決定過程として形式化します。エージェントの観測は現在の入力であり、行動はモデル呼び出しであり、報酬は最終的な報酬または中間的な報酬である可能性があります。このフレームワークは、エージェントモデルの呼び出し記録および入力、出力、報酬情報を抽出し、不要なノイズをフィルタリングして訓練用のクリーンな遷移データを生成します。

このフレームワークは「トレーニングとデプロイメントの分離」の方法を採用しており、Lightning Serverでトレーニングとサービスを行い、OpenAIと互換性のあるAPIインターフェースを提供して、更新後のモデルの呼び出しを容易にしています。一方、Lightning Clientは既存のエージェントランタイムで呼び出し記録をキャプチャし、リアルタイムでデータをサーバーに送信します。この設計により、ツールやブラウザその他の依存関係が密接に統合され、GPUトレーニングはサーバー層に配置されます。

image.png

エージェント・ライトニングは2つのトラッキングパスをサポートしています。デフォルトのパスではOpenTelemetryを使用してデータを収集し、エージェントのテレメトリ情報を標準コレクターに送信することが可能です。また、OpenTelemetryを導入したくないチーム向けに、軽量な組み込みトラッカーも用意されています。最終的に、すべてのデータは同じ場所に保存され、トレーニングに使用されます。

実験において、研究チームは3つのタスクを評価しました。それはテキストからSQLへの変換、検索増強生成、そして数学の質問応答です。テキストからSQLへの変換ではSpiderベンチマークを使用し、10,000以上の問題と200のデータベースが含まれています。検索増強生成ではMuSiQueベンチマークを使用し、2,100万ドキュメントを含むウィキペディア規模のインデックスに基づいています。数学の質問応答ではCalc Xデータセットを使用し、ツール呼び出しを用いて計算を行います。各タスクのトレーニングでは安定した報酬の向上が確認されました。

論文:https://arxiv.org/abs/2508.03680v1

ポイント:  

🌟 エージェント・ライトニングは、既存のシステムを再構築することなくマルチエージェントシステムを最適化するオープンソースフレームワークです。

🚀 このフレームワークはエージェントを部分的に観測可能なマルコフ決定過程としてモデル化し、クリーンなトレーニング用の遷移データを抽出します。

📈 実験結果によると、エージェント・ライトニングはテキストからSQLへの変換、検索増強生成、数学の質問応答のタスクにおいて、顕著なパフォーマンス向上を達成しました。