近年、ChatGPTに代表される大規模言語モデルがAI分野に新たな波を起こしています。これらの強力な言語モデルは、人間の指示を理解するだけでなく、計画を立て、環境を探求し、ツールを利用して複雑なタスクを解決することができ、ロボット、パーソナルアシスタント、プロセス自動化などの分野で大きな可能性を示しています。

しかし、既存のAIエージェントシステムの多くは受動的で、タスクを実行するには明確な人間の指示が必要です。会議の予定を入れるにも、時間、場所を手動で入力するだけでなく、参加者一人一人をリストアップする必要があり、自分でやるよりも面倒です!
同僚から会議の提案メールを受け取ったと想像してみてください。受動的なAIエージェントは、あなたが会議の予約を指示するまで待ちます。一方、能動的なAIエージェントは、そのメールに気づき、会議の予約を提案します。この能動性により、ユーザーの認知負荷が大幅に軽減されるだけでなく、人間が明確に表現していない潜在的なニーズも認識できます。

AIアシスタントの受動的な問題を解決するために、清華大学と面壁智能は共同で、全く新しいAIエージェントを提案しました。これは単なる「指示に従う」機械ではなく、「先読み」して、あなたが口を開く前に、物事をきちんと準備してくれるのです!
この「魔法」のようなAIエージェントはどのように実現しているのでしょうか?秘密兵器はProactiveBenchデータセットです!このデータセットは、人間の様々な活動を記録した「百科事典」のようなもので、あなたがコンピューターの前で打った文字一つ一つ、クリックしたリンク一つ一つ、さらにはコピー&ペーストした内容まで、全て記録されています!

このデータセットを用いて、研究者たちは「人間の脳をシミュレートする」スーパーコンピューターのような報酬モデルを訓練しました。AIエージェントの行動が人間の期待に合致すれば報酬が与えられ、そうでなければ減点されます。繰り返し訓練することで、AIエージェントは人間のように、あなたの行動からニーズを予測し、必要な時に能動的に支援できるようになります。
例えば、同僚からの会議提案メールを受け取ると、この「先読み」AIエージェントはメールの内容を自動的に認識し、会議の予約が必要かどうかを尋ねます。あなたが同意すれば、時間、場所を自動的に予約し、会議の招待状を送信します!今のAIアシスタントより「賢い」ですよね?
実験結果によると、ProactiveBenchデータセットで訓練されたAIエージェントは非常に優れた性能を示しました。例えば、Qwen2-7B-Instructモデルは、能動的な支援におけるF1スコアが66.47%に達し、全てのオープンソースとクローズドソースのモデルを上回りました!
この「先読み」AIエージェントはまだ研究段階ですが、未来の人と機械の協働の進歩に新たな希望をもたらします。「指示に従う」だけでなく、様々な問題を能動的に解決し、あなたの生活をより快適で便利にする、本当に「あなたを理解する」AIアシスタントが、近い将来実現すると信じています!
論文アドレス:https://arxiv.org/pdf/2410.12361
