大規模言語モデル(LLM)や視覚-言語モデル(VLM)の急速な発展に伴い、エージェントは知識の発見や問題解決の方法において革命的な変化を遂げています。しかし、多くの既存のオープンソースエージェントフレームワークは高価な有料ツールに過度に依存しており、これによりその再現性と汎用性が大きく制限されています。この課題に対応するため、騰訊AIラボは完全なオープンソースエージェントフレームワーク「Cognitive Kernel-Pro」をリリースしました。このフレームワークは外部依存を最大限に減らし、より多くの研究者や開発者がエージェントの開発およびトレーニングに簡単に参加できるようにすることを目的としています。
Cognitive Kernel-Proは多モジュールかつ階層的な設計を採用しており、主エージェントと複数のサブエージェントから構成されています。主エージェントはタスクの分解と情報の統合を担当し、サブエージェントはウェブブラウジングやファイル処理などの特定のタスクに焦点を当てます。このモジュール構造により、各部分の独立性と拡張性が確保されています。
複雑なタスクの処理効率を向上させるために、Cognitive Kernel-Proは「進捗状態」メカニズムを取り入れています。エージェントは完了したステップと未実施のタスクを記録できます。また、フレームワークは単純なテキストインターフェースを通じて主エージェントとサブエージェント間の効率的な通信を実現し、協力やデバッグを容易にしています。さらに、反省と投票メカニズムの導入により、特にウェブブラウジングなどの高ランダム性のあるタスクにおいて、タスクの完成品質が向上しています。
パフォーマンス面では、Cognitive Kernel-ProはGAIAベンチマークテストで優れた結果を示し、他のオープンソースフレームワークであるSmolAgentsを上回り、有料ツールに依存するエージェントに近づいています。この成果は、ウェブナビゲーション、ファイル処理、推論など複数の分野における革新的なトレーニング方法に起因しています。
強力なフレームワーク設計に加え、騰訊AIラボはAgent Foundation Modelのトレーニングのレシピも提供しており、コミュニティの研究および開発をさらに推進しています。関連するコードや技術報告書はGitHub上で公開されており、皆様に共同で探求・利用していただけるよう準備されています。
プロジェクトアドレス:https://github.com/Tencent/CognitiveKernel-Pro