スイス連邦工科大学ローザンヌ校(EPFL)の最新研究では、2つの主流の大規模言語モデル(LLM)の適応的訓練方法、すなわちインコンテキスト学習(ICL)と指示微調整(IFT)を比較しました。研究者らは、MT-Benchベンチマークを使用してモデルの指示遵守能力を評価し、特定の状況下では、両方法の性能に優劣があることを発見しました。

研究によると、利用可能な訓練サンプル数が少ない場合(例えば50個以下)、ICLとIFTの効果は非常に近似しています。これは、データが限られている状況では、ICLがIFTの代替手段として機能する可能性を示唆しています。

image.png

しかし、タスクの複雑さが増すにつれて、例えば複数回にわたる対話シナリオでは、IFTの優位性が明らかになります。研究者らは、ICLモデルは個々のサンプルのスタイルに過剰適合しやすく、複雑な対話を処理する際に性能が低下し、場合によっては基本モデルよりも劣る可能性があると述べています。

研究では、URIAL法についても検討されました。この方法は、わずか3つのサンプルと指示遵守ルールを使用して基本言語モデルを訓練します。URIALはある程度の効果を上げましたが、IFTで訓練されたモデルと比較すると依然として差があります。EPFLの研究者らは、サンプル選択戦略を改善することでURIALの性能を向上させ、微調整モデルに近づけました。これは、ICL、IFT、そして基本モデルの訓練において、高品質な訓練データの重要性を浮き彫りにしています。

image.png

さらに、研究では、デコードパラメータがモデルの性能に顕著な影響を与えることも発見されました。これらのパラメータはモデルがどのようにテキストを生成するかを決定し、基本LLMとURIALで訓練されたモデルの両方にとって非常に重要です。

研究者らは、基本モデルでさえ、適切なデコードパラメータの下では、ある程度指示に従うことができることを指摘しています。

この研究の意義は、特に訓練サンプルが限られている場合、インコンテキスト学習によって言語モデルを迅速かつ効果的に調整できることを明らかにした点にあります。しかし、複数回にわたる対話などの複雑なタスクには、指示微調整の方が依然として最適な選択肢です。

データセットの規模が拡大するにつれて、IFTの性能は継続的に向上しますが、ICLの性能はある程度のサンプル数に達すると安定します。研究者らは、ICLとIFTのどちらを選択するかは、利用可能なリソース、データ量、具体的なアプリケーションニーズなど、複数の要因に依存すると強調しています。どちらの方法を選択する場合でも、高品質な訓練データが不可欠です。