清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。
研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。
研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。

清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。
研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。
研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。
OpenAIとマイクロソフトの関係に亀裂が生じ、マイクロソフトの計算力に依存するのを減らすため、アマゾンとの提携を急いでいる。アマゾンはOpenAIに500億ドルを投資し、2ギガワットの計算力を提供することで、AI分野での強力な布石を打っている。
コーズ2.5バージョンでAgent Worldプラットフォームをリリース。AIエージェントがツールから独立したデジタルパートナーへ進化。各エージェントに「人格・スキル・装備」を備えた基盤を提供し、独自のアイデンティティと長期記憶を持ち、仮想世界で自律的に活動・学習・協働可能に。クラウドPCやクラウドスマホなどの「生活インフラ」も整備し、包括的な運用サポートを実現。....
阿里雲の百煉プラットフォームが「記憶庫」機能をリリースし、AIエージェントの対話中の記憶喪失問題を解決。API呼び出しやワンクリックデプロイに対応し、抽出・保存・検索・注入の4モジュールで長期記憶を実現。....
腾讯雲が国内初のブラウザーインテリジェントエージェント「QBotClaw」を発表。QQブラウザーに統合され、一言の指示で複雑なタスクを自動実行。無料で利用可能。....
AnthropicはClaude Managed Agentsの公開テスト版をリリースし、AIエージェントの構築と配備を一貫して解決するソリューションを提供します。このプラットフォームは最適化されたフレームワークとプロダクション用インフラストラクチャを統合しており、AIエージェントの全ライフサイクルを深く管理します。開発サイクルを数日で短縮できます。高度に統合された設計により、開発者は複雑なシステムを独自に構築する必要がありません。