清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。
研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。
研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。

清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。
研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。
研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。
アマゾンがAmazon SageMakerにAIエージェント機能を導入。開発者は自然言語でユースケースを記述するだけで、モデル開発プロセス(訓練戦略の推奨、データ準備、タスクスケジューリング、結果納品)を自動化。API呼び出しやデータ形式変換の手間を省き、開発効率を大幅に向上させる。....
Anthropicは最近、金融業界向けに10種類のAIエージェント製品を発表しました。これらは銀行、保険、資産運用およびフィンテックなどの分野をカバーしており、顧客紹介資料の作成や財務諸表の審査、コンプライアンスレビューのプロセスのトリガーに使用されます。これは高価値な縦型シナリオにおける商業化の実現を加速し、企業向けアプリケーションにおいてOpenAIとより直接的な競争を展開することを目的としています。このニュースの影響で、伝統的な金融データおよび分析サービスの株価は下落しました。
アリババは、企業の生産から個人のモバイルまで全シーンをカバーするAIエージェント製品「QoderWake」と「Qoderモバイル版」を発表。QoderWakeは生産向けデジタル従業員としてソフトウェアエンジニアや運営業務を担い、「デジタルプログラマー」役割が社内で活用され、コード変更の概要整理などを自律実行する。....
OpenAIはメディアテクノロジー、クアルコムおよびリックスン精密と協力して、画期的なスマートフォンを開発しています。チップはOpenAIとメディアテクノロジー、クアルコムが共同で設計し、リックスン精密が製造を担当しており、これはAIの巨頭がハードウェア分野へさらに深く進出することを示しています。
OpenAIは、AIエージェントのデバッグの難題に対処するためのオープンソースツールであるEuphonyをリリースしました。AIエージェントにはファイルの読み込み、APIの呼び出し、コードの記述などの複数ステップの操作が含まれるため、従来のスタックトレース方法は適していません。Euphonyはブロウザでビジュアライズし、構造化されたHarmonyチャットデータやCodexセッションログを直感的な会話ビューに変換することで、開発者がAIエージェントの作業プロセスをより効率的に分析し、理解するのに役立ちます。