AI分野において、トークン数の制限は常に解決すべき課題でした。最近、華人チームが行った研究が注目を集めています。その研究によると、拡散言語モデルはトークン数に制限がある状況でも、自己回帰モデルよりも3倍多くのデータ学習の可能性を示したのです。この発見は、将来的な言語モデルの訓練に新たな道を開くかもしれません。
この研究の中心は、10億パラメータの拡散モデルです。チームは10億のトークンを使用して480サイクルのトレーニングを行いました。HellaSwagおよびMMLUのベンチマークテストでは、それぞれ56%と33%の正確度を達成し、トレーニング中に特別なテクニックやデータ選別は一切使用されませんでした。さらに驚くべきことに、極端に繰り返されたデータでトレーニングしても、モデルの性能は飽和せず、同じデータからより多くの有用な情報を抽出できることが示されました。
研究者は拡散言語モデルの強力なデータ学習能力を分析し、2つの主な要因を挙げました。まず、拡散モデルは双方向モデリングと拡散ターゲットを使用しており、これによりデータ内の情報をより幅広く掘り下げることができます。一方で、従来の自己回帰モデルは因果的制限を持つため、データ処理において限界があります。第二に、拡散モデルは計算密度が高く、トレーニングおよび推論時により多くの計算リソースを投入します。複数回データを処理することで予測を最適化し、モデル全体の性能を向上させています。
拡散モデルはデータの繰り返し使用に対してある程度のロバスト性を持っているものの、研究チームはトレーニングサイクルが増えるにつれて過学習現象が発生することを確認しました。しかし驚いたことに、過学習の状態でも下流タスクにおける性能がすぐに低下することなく、場合によっては引き続き向上することがありました。これは、検証損失の変化と下流タスクの正確度が常に正の相関を持つわけではないためです。有限なトレーニングデータでモデルが特定のテキストスニペットに対して過度に自信を持つことがあるからです。
この研究の結果は、今後のAIモデルのトレーニング方法に対して新しいアイデアを提供しています。特に、トークン数が制限されている状況において、拡散言語モデルの応用の可能性はさらに広がるでしょう。研究チームは今後の作業として、より大きなモデルとより独自性のあるデータを使用して、これらの結果をさらに検証する予定です。