OpenAIの新しいシステムは最近の評価で素晴らしい成績を収め、チャットボットランキングで1位を獲得しました。しかし、評価数が少ないため、評価結果が歪められている可能性があります。

QQ20240920-103932.png

発表された概要によると、これらの新しいシステムは、全体的な性能、安全性、技術的能力など、すべての評価項目で優れたパフォーマンスを示しました。STEMタスクに特化したシステムの1つは、9月初めにリリースされたGPT-4oバージョンと共に一時的に2位にランクインし、技術分野でトップを争いました。

Chatbot Arenaは、さまざまなシステムを比較するためのプラットフォームであり、6,000件以上のコミュニティ評価を使用して新しいシステムを評価しました。その結果、これらの新しいシステムは、数学の問題、複雑な指示、プログラミングにおいて優れたパフォーマンスを示したことが明らかになりました。

QQ20240920-103553.png

しかし、これらの新しいシステムが獲得した評価数は、GPT-4oやAnthropicのClaude3.5などの他の成熟したシステムよりもはるかに少なく、システムごとのレビュー数は3,000件未満です。このようにサンプル数が少ないと、評価が歪められ、結果の重要性が制限される可能性があります。

OpenAIの新しいシステムは、数学とコーディングにおいて優れたパフォーマンスを示しており、これはその設計の主要な目標です。これらのシステムは、回答する前により長く「考える」ことで、AI推論の新しい基準を確立することを目指しています。しかし、これらのシステムがすべての分野で他のシステムを凌駕しているわけではありません。多くのタスクでは複雑な論理的推論は必要なく、他のシステムの迅速な応答で十分な場合もあります。

Lmsysによる数学モデルの強さに関するグラフは、これらの新しいシステムのスコアが1360を超えており、他のシステムのパフォーマンスをはるかに上回っていることを明確に示しています。