正文

學術打假！清華上交大研究顛覆認知：強化學習竟是大模型推理的"絆腳石"

aibase

發布於AI新閒資訊

時間 :Apr 23, 2025

閱讀 :1分鐘

【研究顛覆】

清華大學與上海交通大學聯合發表的最新論文，對業界普遍認爲"純強化學習（RL）能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現，引入強化學習的模型在某些任務中的表現，反而遜色於未使用強化學習的原始模型。

【實驗驗證】

研究團隊在數學、編碼和視覺推理三大領域進行了系統性實驗:

數學任務:在GSM8K、MATH500等基準測試中，RL模型在低採樣次數（k值）下準確率提升，但在高k值時問題覆蓋率顯著下降
編碼任務:RLVR訓練模型在HumanEval+等測試中單樣本pass@1分數提高，但在高採樣數（k=128）時覆蓋率下降
視覺推理:Qwen-2.5-VL-7B模型在多模態任務中表現一致，RL未改變其基本問題解決策略

【學界爭議】

研究結果引發學界激烈討論:

支持方認爲RL提高了採樣效率但限制了推理能力開發
反對方指出可能是獎勵結構缺陷而非RL本身問題
中立觀點建議結合蒸餾等其他方法增強推理

【本質思考】

研究團隊提出關鍵區分:

能力:模型解決問題的潛質與邏輯鏈條
效率:在給定能力範圍內得出答案的速度與穩定性

強化學習更像是"能力調控器"而非"能力創造器"，它能讓模型更擅長做已知的事，但難以開發新的推理路徑。

【行業啓示】

這項研究爲過熱的大模型RL訓練熱潮敲響警鐘，提示行業應:

更關注基礎模型的表示能力與知識組織
明確區分能力提升與效率優化的目標
建立更科學的推理能力評估體系

相關推薦

Kimi k2性能被贊超越 GPT-5，月之暗面再獲數億美元重磅融資

國內AI公司月之暗面即將完成新一輪數億美元融資，距上次3億美元融資僅隔數月。資本市場對其信心持續高漲，該公司曾被譽爲中國最受期待的大模型企業之一。

國內 AI 戰場新王誕生！文心 X1.1 榮登大模型測評榜首

百度文心X1.1在SuperCLUE-CPIF中文指令遵循測評中以75.51分位列國產大模型第一。該基準評估10個國內外知名模型在中文複雜指令執行能力，包括GPT-5、DeepSeek等，重點關注任務類型與指令遵循表現。

小米 AI 團隊攜手北大發表新論文，雷軍高薪挖角的 “天才少女” 參與研究

小米與北京大學聯合在arXiv發佈學術論文，通訊作者羅福莉曾因雷軍千萬年薪招募受關注。但論文作者名單未顯示她隸屬小米大模型團隊。羅福莉爲1995年出生，本科畢業於北師大計算機專業，現於北大計算語言學研究所。

AI視頻公司愛詩科技完成1億元B+輪融資：ARR突破4000萬美元，用戶超1億

愛詩科技完成1億元B+輪融資，投資方包括復星銳正等機構。公司商業化進展迅速，年度經常性收入突破4000萬美元，註冊用戶超1億，月活用戶達1600萬。自2024年11月啓動商業化以來，收入實現十倍增長，增速在全球AI視頻平臺中領先。

螞蟻集團發佈萬億參數模型 Ling-1T，超越 GPT-5 成新標杆

螞蟻集團開源萬億參數大模型Ling-1T，採用FP8低精度訓練，爲當前最大基座模型。該模型由"百靈"團隊開發，屬於Ling2.0家族，包含Ling、Ring、Ming三大系列。其中Ling系列專注通用任務，強調速度與效率優勢。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIBase