木曜日、ラウド研究所は最初の「スリングショット(Slingshot)」人工知能助成プログラムを開始すると発表しました。このプログラムは「人工知能の科学と実践を推進する」ことを目的としており、研究者に伝統的な学術機関では提供できないリソース—資金、計算能力、製品およびエンジニアリングのサポート—を提供することで、AI研究と実用化のイノベーションを加速します。その代わりに、支援を受けた研究者は実際の成果を生み出す必要があります。例えばスタートアップ企業やオープンソースプロジェクト、あるいは他の形式の研究成果などが含まれます。
初回には15のプロジェクトが選出AI評価システムに焦点を当てています。これらのプロジェクトの多くは業界内で知名度があります。例えばコマンドラインでのコードベンチマークテストツールTerminal Benchや、長期的に汎用人工知能(AGI)の能力評価に注力しているARC-AGI プロジェクトの最新バージョンなどが挙げられます。

一方で、多くのチームが新たな視点から評価のボトルネックに取り組んでいます。カリフォルニア工科大学とテキサス大学オースティン校の共同開発したFormula Codeプロジェクトは、既存のコードを最適化するAIエージェントのパフォーマンスを評価することを目的としています。コロンビア大学チームが公開したBizBenchは、「白領系AIエージェント」向けの包括的なテスト基準を構築し、ビジネスや意思決定などのタスクにおけるAIの実際の性能に焦点を当てています。さらに一部のプロジェクトでは、強化学習やモデル圧縮の新しい方法を探求しており、より普遍的かつ拡張可能な評価フレームワークの構築を目指しています。
注目すべきは、SWE-Benchの共同創設者であるJohn Boda Yangもこの計画に参加し、新しいプロジェクトCodeClashを率いることになりました。このプロジェクトは、SWE-Benchの成功経験を参考にして、動的で競技形式のメカニズムを通じてAIのコード能力を評価することを計画しています。
Yang氏はTechCrunchとのインタビューで、「私は、第三者の核心的なベンチマークを利用して継続的にオープンな評価を行うことが、業界全体の進歩にとって鍵だと考えています。しかし、将来の評価体系が特定の企業によって独占される可能性があることに懸念しています。それにより、研究のオープン性や比較性が損なわれる恐れがあるからです。」と語っています。
