【研究の転換点】

清華大学と上海交通大学が共同発表した最新の論文は、業界で広く信じられている「純粋な強化学習(RL)は大規模言語モデルの推論能力を向上させる」という見解に異議を唱えています。研究によると、強化学習を導入したモデルは、一部のタスクにおいて、強化学習を使用していない元のモデルよりも性能が劣ることが判明しました。

image.png

【実験検証】

研究チームは、数学、コーディング、視覚推論の3つの分野で体系的な実験を行いました。

  • 数学タスク:GSM8K、MATH500などのベンチマークテストにおいて、RLモデルは低いサンプリング回数(k値)では精度が向上しましたが、高いk値では問題の網羅率が著しく低下しました。
  • コーディングタスク:RLVRで訓練されたモデルは、HumanEval+などのテストにおいて、シングルサンプルpass@1スコアが向上しましたが、高いサンプリング回数(k=128)では網羅率が低下しました。
  • 視覚推論:Qwen-2.5-VL-7Bモデルは、マルチモーダルタスクにおいて一貫したパフォーマンスを示し、RLは基本的な問題解決戦略を変えませんでした。

image.png

【学界の議論】

研究結果は学界で活発な議論を引き起こしています。

  • 支持する側は、RLはサンプリング効率を向上させるが、推論能力の開発を制限すると考えています。
  • 反対する側は、RL自体ではなく、報酬構造の欠陥が原因である可能性を指摘しています。
  • 中立的な見解は、蒸留などの他の手法と組み合わせることで推論能力を強化すべきだと提案しています。

【本質的な考察】

研究チームは、重要な区別点を提示しました。

  • 能力:問題解決の潜在能力と論理的思考の連鎖
  • 効率:与えられた能力の範囲内で、答えを導き出す速度と安定性

強化学習は「能力創造者」ではなく「能力調整器」のようなもので、モデルは既知のタスクをより得意になることができますが、新しい推論経路を開発することは困難です。

【業界への示唆】

この研究は、過熱している大規模言語モデルのRLトレーニングブームに警鐘を鳴らし、業界は以下の点に注意すべきだと示唆しています。

  1. 基礎モデルの表現能力と知識の構成に注目すること
  2. 能力向上と効率最適化の目標を明確に区別すること
  3. より科学的な推論能力評価システムを構築すること