OpenAIの新しいAIモデルo1-previewとo1-miniがチャットボットランキングで最高点を獲得

OpenAIの新しいシステムは最近の評価で素晴らしい成績を収め、チャットボットランキングで1位を獲得しました。しかし、評価数が少ないため、評価結果が歪められている可能性があります。

発表された概要によると、これらの新しいシステムは、全体的な性能、安全性、技術的能力など、すべての評価項目で優れたパフォーマンスを示しました。STEMタスクに特化したシステムの1つは、9月初めにリリースされたGPT-4oバージョンと共に一時的に2位にランクインし、技術分野でトップを争いました。

Chatbot Arenaは、さまざまなシステムを比較するためのプラットフォームであり、6,000件以上のコミュニティ評価を使用して新しいシステムを評価しました。その結果、これらの新しいシステムは、数学の問題、複雑な指示、プログラミングにおいて優れたパフォーマンスを示したことが明らかになりました。

しかし、これらの新しいシステムが獲得した評価数は、GPT-4oやAnthropicのClaude3.5などの他の成熟したシステムよりもはるかに少なく、システムごとのレビュー数は3,000件未満です。このようにサンプル数が少ないと、評価が歪められ、結果の重要性が制限される可能性があります。

OpenAIの新しいシステムは、数学とコーディングにおいて優れたパフォーマンスを示しており、これはその設計の主要な目標です。これらのシステムは、回答する前により長く「考える」ことで、AI推論の新しい基準を確立することを目指しています。しかし、これらのシステムがすべての分野で他のシステムを凌駕しているわけではありません。多くのタスクでは複雑な論理的推論は必要なく、他のシステムの迅速な応答で十分な場合もあります。

Lmsysによる数学モデルの強さに関するグラフは、これらの新しいシステムのスコアが1360を超えており、他のシステムのパフォーマンスをはるかに上回っていることを明確に示しています。

GPT-5.2が強力に駆動！OpenAIの深層学習研究ツールが大幅アップグレード。フルスクリーンレポートのインタラクティブな新体験を解禁

OpenAIがChatGPTの研究ツールを更新し、GPT-5.2モデルでレポート生成能力を向上。新たに全画面ビューアーを追加し、独立ウィンドウでレポート全体を閲覧可能に。左側のインタラクティブな目次から特定コンテンツへ即時移動でき、情報取得体験を最適化。....

評価が230億ドルに急騰！CerebrasがOpenAIと提携し、NVIDIAの計算力支配権に挑む

カリフォルニアのチップ企業Cerebras Systemsが10億ドルの資金調達を完了し、評価額は230億ドルに達し、1年で約3倍に増加。独自のウェハースケールエンジン技術が従来のチップアーキテクチャを革新し、シリコンバレーのベンチャーキャピタルBenchmark Capitalが主導する投資は、非GPUコンピューティングルートへの市場の期待を示している。....

OpenAIの新しいAIモデルo1-previewとo1-miniがチャットボットランキングで最高点を獲得

関連推奨

GPT-5.2が強力に駆動！OpenAIの深層学習研究ツールが大幅アップグレード。フルスクリーンレポートのインタラクティブな新体験を解禁

ペンタゴンが最高の脳を取り入れた：OpenAIと米国国防省が深度協力を達成

評価が230億ドルに急騰！CerebrasがOpenAIと提携し、NVIDIAの計算力支配権に挑む

OpenAI ChatGPTのユーザー数がさらに加速して増加、新しいモデルが近日公開予定

ChatGPTもフードを食べるようになった？OpenAIが広告機能のテストを正式に開始・無料および低価格サブスクリプションユーザーをカバー