【研究顛覆】

清華大學與上海交通大學聯合發表的最新論文,對業界普遍認爲"純強化學習(RL)能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現,引入強化學習的模型在某些任務中的表現,反而遜色於未使用強化學習的原始模型。

image.png

【實驗驗證】

研究團隊在數學、編碼和視覺推理三大領域進行了系統性實驗:

  • 數學任務:在GSM8K、MATH500等基準測試中,RL模型在低採樣次數(k值)下準確率提升,但在高k值時問題覆蓋率顯著下降
  • 編碼任務:RLVR訓練模型在HumanEval+等測試中單樣本pass@1分數提高,但在高採樣數(k=128)時覆蓋率下降
  • 視覺推理:Qwen-2.5-VL-7B模型在多模態任務中表現一致,RL未改變其基本問題解決策略

image.png

【學界爭議】

研究結果引發學界激烈討論:

  • 支持方認爲RL提高了採樣效率但限制了推理能力開發
  • 反對方指出可能是獎勵結構缺陷而非RL本身問題
  • 中立觀點建議結合蒸餾等其他方法增強推理

【本質思考】

研究團隊提出關鍵區分:

  • 能力:模型解決問題的潛質與邏輯鏈條
  • 效率:在給定能力範圍內得出答案的速度與穩定性

強化學習更像是"能力調控器"而非"能力創造器",它能讓模型更擅長做已知的事,但難以開發新的推理路徑。

【行業啓示】

這項研究爲過熱的大模型RL訓練熱潮敲響警鐘,提示行業應:

  1. 更關注基礎模型的表示能力與知識組織
  2. 明確區分能力提升與效率優化的目標
  3. 建立更科學的推理能力評估體系