瑞士洛桑聯邦理工學院 (EPFL) 的一項最新研究比較了兩種主流的大型語言模型 (LLM) 適應性訓練方法:上下文學習 (ICL) 和指令微調 (IFT)。研究人員使用 MT-Bench 基準測試來評估模型遵循指令的能力,發現在特定情況下,兩種方法的表現各有優劣。

研究發現,當可用的訓練樣本數量較少時(例如不超過50個),ICL 和 IFT 的效果非常接近。這表明在數據有限的情況下,ICL 或許可以作爲 IFT 的替代方案。

image.png

然而,隨着任務複雜度的增加,例如在多輪對話場景中,IFT 的優勢就變得明顯。研究人員認爲,ICL 模型容易過度擬合到單個樣本的風格,導致在處理複雜對話時表現不佳,甚至不如基礎模型。

研究還考察了 URIAL 方法,這種方法僅使用三個樣本和指令遵循規則來訓練基礎語言模型。雖然 URIAL 取得了一定的效果,但與經過 IFT 訓練的模型相比仍有差距。EPFL 的研究人員通過改進樣本選擇策略,提升了 URIAL 的性能,使其接近微調模型。這凸顯了高質量訓練數據對 ICL、IFT 以及基礎模型訓練的重要性。

image.png

此外,研究還發現解碼參數對模型性能有顯著影響。這些參數決定了模型如何生成文本,對基礎 LLM 和使用 URIAL 訓練的模型都至關重要。

研究人員指出,即使是基礎模型,在合適的解碼參數下也能在一定程度上遵循指令。

這項研究的意義在於,它揭示了上下文學習可以快速有效地調整語言模型,尤其是在訓練樣本有限的情況下。但對於多輪對話等複雜任務,指令微調仍然是更優的選擇。

隨着數據集規模的擴大,IFT 的性能會持續提升,而 ICL 的性能在達到一定樣本數量後會趨於穩定。研究人員強調,選擇 ICL 還是 IFT 取決於多種因素,例如可用資源、數據量和具體應用需求。無論選擇哪種方法,高質量的訓練數據都至關重要。