最近のライブ対談で、テスラとSpaceXのCEO、イーロン・マスク氏は、人工知能モデルの訓練に使用できる現実世界のデータがほぼ枯渇しつつあると述べました。対談相手はStagwellの会長、マーク・ペイン氏です。マスク氏は「我々は基本的に、人類の知識の蓄積…AI訓練データを使い果たしてしまいました…この現象は基本的に昨年起こりました」と述べています。
マスク氏のこの見解は、前OpenAI主席科学者のイリヤ・サツケファー氏が昨年12月のNeurIPS会議で発表した「データピーク」理論と似ています。サツケファー氏は、AI業界はデータ不足の課題に直面しており、将来的には訓練データの不足がAIモデルの開発方法の変化を余儀なくさせると述べています。
この問題を解決するために、マスク氏は合成データが実行可能な代替手段になると考えています。現実世界のデータを補う唯一の方法は、合成データ、つまり人工知能自体が訓練データを作成することだと指摘しています。マスク氏は、AIは自己評価と継続的な最適化を通じて性能を向上させることができると述べています。
現在、マイクロソフト、Meta、OpenAI、Anthropicなど多くのテクノロジー企業が、主要なAIモデルの訓練に合成データを採用し始めています。Gartnerの予測によると、2024年までに、人工知能とデータ分析プロジェクトで使用されるデータの60%は合成データで生成される見込みです。
合成データの大きな利点の1つは、開発コストを大幅に削減できることです。しかし、マスク氏や他の専門家も指摘しているように、合成データにもリスクがないわけではありません。研究によると、合成データはモデルの性能低下、革新性の欠如、バイアスの影響を受ける可能性があることが示されています。合成データ自体に限界があれば、最終的なモデルの出力結果もこれらの問題の影響を受けます。
要点:
🌍 AI訓練に使用できる現実世界のデータがほぼ枯渇しており、マスク氏は懸念を示しています。
💡 合成データは将来の重要な解決策と見なされており、多くのテクノロジー企業が採用し始めています。
💰 合成データを使用すると開発コストを大幅に削減できますが、モデルの性能低下につながる可能性もあります。