先日、カリフォルニア大学バークレー校のSky Computing Labチームが、オープンソースの推論型AIモデル「Sky-T1-32B-Preview」を発表しました。これにより、推論型AIの研究開発がより容易かつ安価になりました。このモデルは複数の主要なベンチマークテストで優れた性能を示し、OpenAIの初期バージョンであるo1に匹敵する結果を出しています。
Sky-T1のトレーニングコストは驚くほど低く、わずか450ドルです。これは、高度な推論能力の複製がより手頃で効率的になったことを意味します。450ドルは決して安い金額ではありませんが、数年前には数百万ドルかかっていたトレーニングコストと比べると、劇的な削減です。合成トレーニングデータ(他のモデルによって生成されたトレーニングデータ)を使用することで、コストを大幅に削減することに成功しました。AI企業のWriterが最近発表したPalmyra X004も、ほぼ完全に合成データに依存しており、開発コストは70万ドルでした。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
多くのAIとは異なり、推論モデルは効果的に自己検証を行うことができるため、一般的な問題に対処する際に信頼性が高まります。推論モデルは解を導き出すのに時間がかかることが多く、数秒から数分かかる場合がありますが、物理学、科学、数学などの分野では、その信頼性の高さが大きな利点となります。
NovaSkyチームは、別の推論モデルであるアリババのQwQ-32B-Previewを使用してSky-T1の初期トレーニングデータを作成し、「キュレーション」を行いました。その後、OpenAIのGPT-4o-miniを使用してデータをより扱いやすい形式に再構成しました。32億パラメーターのSky-T1のトレーニングには、8台のNvidia H100 GPUを使用し、約19時間かかりました。パラメーター数は、モデルの問題解決能力とほぼ比例します。
NovaSkyチームによると、Sky-T1は、「競技レベル」の数学的課題を含むMATH500において、o1の初期プレビュー版を上回る性能を示しました。さらに、LiveCodeBenchで遭遇した難しい問題でも、o1のプレビュー版を上回りました。しかし、物理学、生物学、化学などの分野の問題では、GPQA-DiamondテストでのSky-T1の性能はo1のプレビュー版を下回りました。
なお、OpenAIのGA版o1はプレビュー版よりも強力であり、OpenAIは今後数週間以内にさらに優れた推論モデルo3をリリースする予定です。しかし、NovaSkyチームは、Sky-T1は高度な推論能力を持つオープンソースモデルを開発するという彼らの取り組みの始まりに過ぎないと述べています。
「将来に向けて、私たちは強力な推論性能を維持するためのより効率的なモデルの開発に注力し、モデルの効率性と精度をさらに向上させる高度な技術を探求していきます」と、チームはブログで述べています。「これらのエキサイティングなプロジェクトの進捗にご期待ください。」