新しい人工知能プログラミングコンテストで結果が注目を集めました。Laude Instituteが主催するK賞の試験で、最近初の受賞者が発表され、驚きをもたらしました。5万ドルの賞金を獲得したブラジルのプログラマーであるエドゥアルド・ロチャ・デ・アンドラーデ氏は、試験問題の7.5%しか正解できなかったのです。この成績は、人工知能分野における現状に警鐘を鳴らしています。

K賞は、DatabricksとPerplexityの共同創業者であるアンディ・コンウィンスキー氏によって立ち上げられ、AIモデルが現実的なプログラミング問題においてどれだけ性能があるかを促進することを目的としています。コンウィンスキー氏は「真に挑戦的な基準を作ることができて嬉しいです」と語りました。現在一般的なテストシステムとは異なり、K賞はより厳格に設計されており、「汚染されていない」方法を採用し、テストモデルの能力がトレーニングデータの影響を受けないようにしています。

ロボットコンテスト テスト 数学

図の出典:AI生成画像、画像のライセンス提供者Midjourney

SWE-Benchなどの他のベンチマークテストとは異なり、K賞ではモデルが提出前に特定の問題に触れることを許していません。代わりに、締切後にGitHubから抽出された新しい問題を使用します。多くのAIプログラミングツールが登場していますが、この新たなチャレンジは現在のモデルの限界を示しています。K賞のトップスコアはSWE-Benchでのトップスコア75%と対照的であり、これはベンチマークテストの汚染問題について疑問を投げかけています。

コンウィンスキー氏は将来に楽観的で、オープンソースモデルがテストで90点を超えることができれば、100万ドルの報酬を約束しています。彼はこのチャレンジが業界全体にとって警鐘となることを望んでいます。現在のAI技術には大きな改善の余地があることを認識してほしいと彼は付け加えました。「もし10%にも届かないなら、現実は厳しいものです。」

このコンテストは、AI評価基準に関する業界内の熱烈な議論を引き起こしました。多くの研究者たちは、K賞のようなプロジェクトがAIの評価問題を解決するために不可欠だと考えています。プリンストン大学の研究者であるサヤッシュ・カープル氏は「既存のベンチマークを評価するための新しいテストが必要です。このような実験がない限り、問題の原因を判断することはできません」と述べました。

K賞はAIモデルに対して新たな挑戦の基準を設け、業界全体に反省の機会を提供し、現在の人工知能技術とその応用の可能性を見直すきっかけとなります。