研究：GPT-4が現実世界の実際的なタスクで他のLLMを凌駕

THE DECODER

AIニュースで公開 · 1 分読む · Jul 26, 2025

デコーダー研究チームによるAgentBenchベンチマーク

「デコーダー」の研究チームは、大規模言語モデルの補助タスクにおける能力を測定するためのベンチマークであるAgentBenchを開発しました。

25種類の言語モデルをテストした結果、GPT-4が総合スコアと各分野で最高の性能を示したことが分かりました。

研究チームは、研究コミュニティが利用できるよう、ツールキット、データセット、およびベンチマーク環境も提供しています。

この研究結果は、他の商用およびオープンソースモデルの性能をさらに評価する上で非常に価値のあるものです。

商湯テクノロジーはWAIC2025で「日日新v6.5」などの重要な製品を発表する

商湯科技は「日日新v6.5」やエンボディドAIプラットフォームなど新製品を発表。マルチモーダルとエージェント能力を重点展示し、AIと物理世界の融合を推進。エコパートナーとの協力契約や「算力Mall」プラットフォームも発表。....

Claude統合デザインプラットフォームCanvaがテキストを美しいビジュアルデザインに変換する

Anthropic傘下のAIサービスClaudeとデザインプラットフォームCanvaが深く協力し、テキストからビジュアルデザインへの変換機能をリリースしました。ユーザーがテキストコンテンツをアップロードすると、システムが自動的に認識し、ブランドスタイルに合ったビジュアル作品を生成し、多数のテンプレートを選べます。この機能により、デザインの门槛が大幅に低下し、個人ブローカーや企業のマーケティング担当者が迅速にプロフェッショナルなビジュアルコンテンツを作成でき、伝播効果を高めることができます。今回の協力は、AIがクリエイティブ分野で新たな突破を遂げたものであり、今後はさらなるイノベーティブなデザイン体験が期待されます。

テスラがアシスタントドライブの安全性を強調: AIハードウェアの搭載

テスラは自動運転技術の安全性向上を強調。2025年Q2レポートでは同機能使用車両の安全性が通常車の9.5倍。全車AI4ハードウェア標準装備で「事故ゼロ」を目指す。中国メディアの自動運転テスト結果への反応とみられる。....

インテルが大規模な製造計画を調整！工場の遅延、プロジェクトの中止今後どうなるのか？

インテルCEOが構造改革を発表、独・ポーランドのチップ工場中止、米オハイオ州工場延期、コスタリカ業務を東南アジアに統合。過剰投資を認め、15%削減・管理職50%削減で効率化。半導体競争対応のため、従業員7.5万人に削減予定。....