大型言語モデル(LLM)エージェントの発展において、どのようにして効果的に経験を保存し活用するかという点は重要な課題となっています。最近、イリノイ大学アーバナ・シャンペーン校とグーグルDeepMindの研究チームは、Evo-Memoryという新しいストリーミングベンチマークとエージェントフレームワークを提案しました。このEvo-Memoryは、現在の技術の欠点を補うことを目的としています。Evo-Memoryは、テスト時にエージェントが学習できる能力を評価するだけでなく、自己進化する記憶にも注目しており、連続するタスクの流れから戦略を蓄積・再利用できるかどうか、単なる静的な会話記録に頼るだけでなく、その他の手段でどう対応するかを挑戦しています。

image.png

従来のエージェントは主に会話の回想に依存しており、会話履歴やツール使用記録、ドキュメント検索を保存し、将来的な照合でこれらの情報を再統合します。しかし、このような記憶方法は情報の受動的なバッファであり、エージェントが関連するタスクの処理戦略を積極的に変更することはできません。一方、Evo-Memoryでは経験の再利用に重点を置き、各インタラクションを入力、出力、フィードバックを含む経験として捉え、エージェントが後続のタスクでこれらの経験を検索し、再利用可能な戦略に変換できるかどうかを評価します。

研究チームは、記憶拡張エージェントを4つの部分からなるタプル(F, U, R, C)として形式化しました。ここで、Fは基本モデル、Rは検索モジュール、Cはコンテキスト構築、Uは各ステップ後に新しい経験を書き込みながら記憶を進化させるものです。Evo-Memoryはデータセットを順序付きタスクフローに再構成することで、エージェントのさまざまな環境におけるパフォーマンスを評価します。

ベースラインを設定するために、研究チームはExpRAGモデルも定義しました。このモデルは、各インタラクションを構造化された経験テキストに変換します。新しいタスクにおいて、エージェントは類似した経験を検索し、それを現在の入力と組み合わせて処理を行います。

また、ReMemフレームワークでは、「考える-行動する-記憶の最適化」の制御ループが導入され、エージェントが推論中に記憶を積極的に検索・整理・再構成できるようにします。この方法により、記憶は明示的なオブジェクトとなり、推論時に動的に編集することが可能になります。

研究結果によると、ReMemやExpRAGなどの自己進化する記憶を持つエージェントは、テスト時のパフォーマンスが顕著に向上し、タスクをより少ないステップで完了でき、高い成功率と正確性を示しました。この研究成果は、LLMエージェントの将来の発展に新たな方向性を提供しています。

論文:https://arxiv.org/pdf/2511.20857

要点:  

🧠 Evo-Memoryは、エージェントの経験の再利用を専門とする新しいストリーミングベンチマークです。

🚀 ReMemフレームワークは、推論中に記憶を動的に管理し、タスクの実行効率を向上させます。

📈 自己進化する記憶を使用するエージェントは、正確性と成功率の面で顕著な改善を示しました。