近期一項研究表明,通過特殊訓練,語言模型可以部分實現更高效的多步驟推理能力。這種能力類似於心理學家丹尼爾·卡尼曼所描述的"系統2推理",即緩慢而有意識的信息處理方式。
Meta公司的研究人員開發出一種新方法,將計算密集型的多步驟推理過程"提煉"爲語言模型的參數。研究結果顯示,在某些情況下,經過這種方法訓練的模型能夠以更低的計算成本達到與原始多步驟過程相似的性能。
這種"提煉"方法的工作原理是:首先對大量示例數據應用多步驟推理方法,然後篩選並保留一致性高的結果,最後使用這些數據對語言模型進行微調訓練。本質上,該方法通過生成合成訓練數據,使語言模型能夠直接得出結論而無需中間步驟。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究人員將這種方法應用於四種不同的多步驟推理技術和五種任務類型。結果表明,在許多情況下這種方法都能有效提升模型性能,但並非適用於所有場景。
例如,在避免偏見和改善迴應質量等任務中,經過"提煉"的模型表現與多步驟方法相當,但所需計算資源大幅減少。然而,在複雜的數學推理任務中,這種方法卻未能奏效。研究人員推測,某些任務對於單步推理來說可能過於複雜。
儘管如此,研究人員認爲這種方法爲開發更強大的語言處理系統提供了一個有前景的方向。未來可以將這種方法與其他技術相結合,專注於解決真正具有挑戰性的問題。
這項研究爲提升語言模型的推理能力開闢了新的路徑,有望在多個應用領域帶來突破。
