【研究顛覆】
清華大學與上海交通大學聯合發表的最新論文,對業界普遍認爲"純強化學習(RL)能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現,引入強化學習的模型在某些任務中的表現,反而遜色於未使用強化學習的原始模型。
【實驗驗證】
研究團隊在數學、編碼和視覺推理三大領域進行了系統性實驗:
- 數學任務:在GSM8K、MATH500等基準測試中,RL模型在低採樣次數(k值)下準確率提升,但在高k值時問題覆蓋率顯著下降
- 編碼任務:RLVR訓練模型在HumanEval+等測試中單樣本pass@1分數提高,但在高採樣數(k=128)時覆蓋率下降
- 視覺推理:Qwen-2.5-VL-7B模型在多模態任務中表現一致,RL未改變其基本問題解決策略
【學界爭議】
研究結果引發學界激烈討論:
- 支持方認爲RL提高了採樣效率但限制了推理能力開發
- 反對方指出可能是獎勵結構缺陷而非RL本身問題
- 中立觀點建議結合蒸餾等其他方法增強推理
【本質思考】
研究團隊提出關鍵區分:
- 能力:模型解決問題的潛質與邏輯鏈條
- 效率:在給定能力範圍內得出答案的速度與穩定性
強化學習更像是"能力調控器"而非"能力創造器",它能讓模型更擅長做已知的事,但難以開發新的推理路徑。
【行業啓示】
這項研究爲過熱的大模型RL訓練熱潮敲響警鐘,提示行業應:
- 更關注基礎模型的表示能力與知識組織
- 明確區分能力提升與效率優化的目標
- 建立更科學的推理能力評估體系