OpenAIは木曜日、待望のAI言語モデル「o1」を正式にリリースしました。この「Strawberry」と呼ばれる新しいモデルは、「推論」と問題解決能力において、以前の大規模言語モデルよりも大幅な向上を遂げたと主張しています。o1モデルシリーズは現在、o1-previewとo1-miniの2つの形式で提供され、ChatGPT Plusユーザーと一部のAPIユーザーが利用できます。

QQ20240913-085457.jpg

o1の最も注目すべき特徴は、擬人化された思考プロセスです。質問に答える前に、o1は特殊な思考モードに入り、複雑な問題を複数の小さなステップに分解して順番に解決し、より正確な答えを導き出すための長い内部思考チェーンを生成します。

image.png

この技術は、Google DeepMindによって「訓練時計算」(Test-time computation)と呼ばれ、その核心は、集中的でプロセス指向の検証報酬モデル検索と、モデルの応答に対する確率分布の適応的な更新にあります。

要点まとめ:

  • o1-previewとo1-miniは応答時間が長く、人間のようにゆっくりと思考します。

  • o1シリーズはテスト段階であり、テキスト機能のみをサポートし、インターネット接続、画像生成、ファイルインポートなどの機能は開発中です。

  • APIプロトタイプの開発は、毎分20回のリクエストに制限されています。

  • APIは、関数呼び出し、ストリーミング出力、システム情報などの機能をサポートしていません。

o1はどこが優れているのか?

OpenAIは、o1-previewが競争プログラミング、数学、「科学的推論」など、いくつかのベンチマークテストで前身であるGPT-4oを上回ったと述べています。

image.png

プログラミングにおいて、o1-previewはCodeforcesの競争プログラミング問題で89パーセンタイルの順位を達成しました。

アメリカ数学オリンピック予選では、o1の成績はアメリカのトップ500人の学生に匹敵します。o1の数学能力は目覚ましく、国際数学オリンピック予選試験では、o1-previewは83%の高得点を獲得しましたが、GPT-4oはわずか13%でした。

さらに驚くべきことに、o1は物理学、生物学、化学などのベンチマークテストで初めて人間の博士レベルを上回り、複雑な推論能力においてAIが画期的な進歩を遂げたことを示しています。

image.png

o1の推論能力が高い理由とは?

o1の進歩は、主に新しい強化学習訓練方法によるものです。この方法は、モデルに質問に答える前により多くの時間「思考」させることを教え、他の大規模言語モデルにおける「一歩ずつ考えてみましょう」という思考チェーンプロンプトに似ています。このプロセスにより、o1はさまざまな戦略を試して自分の間違いを「認識」することができます。

OpenAIは、今後o1とGPTシリーズモデルの開発を続け、o1-previewにウェブブラウジング、画像生成、ファイルアップロードなどの機能を追加する予定です。

しかし、これらの印象的なデータの裏には議論もあります。一部のユーザーは、o1がすべての指標でGPT-4oを上回っているわけではないとフィードバックしています。

また、モデルがバックグラウンドで複数ステップの処理を行うため、応答時間が長くなることも批判されています。OpenAIのプロダクトマネージャーであるJoanne Jangはソーシャルメディアで、「o1は非常に困難なタスクで優れたパフォーマンスを示す最初の推論モデルであり、さらに向上するでしょう。しかし、すべての点で以前のモデルを上回る『奇跡のモデル』ではありません。」と述べています。

QQ20240913-092226.jpg

注目すべきは、AIベンチマークテストは常に信頼性が低く、操作されやすいということです。o1の真の能力は、ユーザーによる独立した検証と実験によって確認する必要があります。今年の初めに、MITの研究では、OpenAIが昨年発表したGPT-4に関するいくつかのベンチマークに関する記述に誤りや誇張があったことが示されました。

パフォーマンスの向上に加えて、o1はAIの「推論」能力に関する議論を引き起こしています。「思考」や「推論」などの人間の特性をAIモデルに帰することは不適切であると考える技術者もいます。

公式資料:https://openai.com/index/introducing-openai-o1-preview/

公式入口:https://top.aibase.com/tool/openai-o1