最近、OpenAI は、人工知能モデルが各業界における人間の専門家と比較してどの程度の性能を示すかを評価するための新しいベンチマークテストをリリースしました。このテストは「GDPval」と呼ばれ、OpenAIがその人工知能システムが経済的価値のある仕事において人間を超えることができるかどうかを調査する重要な試みです。OpenAIによると、GPT-5モデルとAnthropicのClaude Opus4.1モデルは、いくつかの分野において専門家の作業品質に近づいてきているとのことです。
ただし、OpenAIはこれらのモデルがすぐに人間の仕事を置き換えるわけではないと指摘しています。一部の企業の幹部は、人工知能が数年以内に人間の仕事を代替すると予測していますが、OpenAIは現在のGDPvalテストが人間の仕事のほんの一部のタスクしかカバーしていないことを認めています。したがって、これは人工知能の進歩を評価する方法の一つに過ぎません。
GDPvalテストは、米国の国内総生産(GDP)に最も大きな貢献をしている9つの主要業界をカバーしており、医療、金融、製造業、政府などがあります。このテストでは、ソフトウェアエンジニアからナース、ジャーナリストに至るまで、44種類の職業のパフォーマンスが評価されています。OpenAIは初期のテストで専門家を招いて、AIが生成したレポートと他の専門家が作成したレポートを比較し、最良のものを選ぶように求めました。例えば、投資銀行家には最後の一マイル配送業界の競合分析レポートを作成してもらい、AIが生成したレポートと比較しました。その後、OpenAIはAIモデルが44の職業で「勝利」する割合を統計的に計算しました。
強化された計算能力を持つGPT-5-highバージョンのテストでは、このモデルが専門家と比較して優れているまたは同等である割合は40.6%でした。一方、AnthropicのClaude Opus4.1モデルは、専門家と同等または優れている割合が49%に達しました。OpenAIは、Claudeモデルが高得点を獲得した理由は、単に性能が高いだけでなく、美しいグラフィックを作成できる能力にも起因していると考えています。
注目すべきは、多くの職業専門家の責任は提出される報告書だけではなく、それ以上のものであるため、GDPval-v0のテスト範囲は相対的に限られているということです。OpenAIは、今後、より包括的なテストを開発し、より多くの業界や相互作用型のワークフローをカバーする予定だと述べています。しかし、会社としてはGDPvalの進展に対して楽観的であると述べています。
OpenAIの首席経済学者アーラン・チャットジー氏はインタビューで、「GDPvalの結果は、これらの職業において、人々が人工知能モデルを使ってより意味のあるタスクに時間を費やすことができるということが示されている」と語っています。モデルの能力が向上するにつれて、専門家たちはこれらのツールを利用して、一部の業務負担を軽減し、より価値の高い仕事に集中できるようになるでしょう。
ブログ:https://openai.com/index/gdpval/
ポイント:
🌟 OpenAIが新たにリリースしたベンチマークテストGDPvalは、人工知能モデルが複数の業界でのパフォーマンスを評価し、人間の専門家と徐々に近づいています。
🤖 GPT-5モデルは44の職業の中で40.6%のタスクで専門家と同等または優れていることが確認されました。Claude Opus4.1モデルは49%に達しています。
📈 OpenAIは今後、より包括的なテストを開発する予定であり、人工知能の実際の仕事における能力とパフォーマンスをより正確に評価したいと考えています。
