文章報道了猩猩行動計劃成功訓練 42 歲的倭黑猩猩 Kanzi 玩《我的世界》的實驗,發現其學習方法與 GPT-4 智能體訓練方法相似。通過上下文強化學習、RLHF、模仿學習和課程學習等技巧,Kanzi 掌握了移動、收集獎勵和擊碎障礙物等技能。該實驗展示了動物在感知和適應新環境方面的優勢,超過了 AI 智能體的能力。
相關推薦
Wan2.5-Preview 發佈,實現多模態輸入與電影級視頻同步生成
Wan2.5-Preview正式發佈,這款AI模型通過革命性架構重塑視覺生成。其核心突破在於多模態處理、視頻生成和圖像編輯,採用統一框架實現文本、圖像、視頻和音頻的靈活輸入輸出。通過聯合訓練,模型強化模態對齊,提升生成能力。
蘋果新研究揭示LLM對齊新範式:清單式強化學習優於傳統獎勵模型
蘋果研究人員提出新型“清單式”強化學習方案(RLCF),通過讓模型對照清單自檢工作,顯著提升開源大語言模型性能。該方法在複雜指令任務中表現優於傳統獎勵模型,突破RLHF侷限性,成爲重要後訓練優化手段。
崑崙萬維再次開源獎勵模型Skywork-Reward-V2
2025年7月4日,崑崙萬維乘勢而上,繼續開源第二代獎勵模型Skywork-Reward-V2系列。此係列共包含8個基於不同基座模型、參數規模從6億到80億不等的獎勵模型,一經推出便在七大主流獎勵模型評測榜單中全面奪魁,成爲開源獎勵模型領域的焦點。 獎勵模型在從人類反饋中強化學習(RLHF)過程中起着關鍵作用。爲打造新一代獎勵模型,崑崙萬維構建了包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理上,團隊採用人機協同的兩階段流程,將人工標註的高質量與模型的規模化處理能力相結合。第一階段,先構建未經驗證的初始偏好池,藉助
重大突破!研究團隊揭示大語言模型內部潛藏的 “獎勵機制”
近日,南京大學的周志華教授團隊發佈了一項重要研究,首次理論證明了在大語言模型中可以發現內源性獎勵模型,並有效應用強化學習(RL)來提升模型表現。當前,許多對齊方法依賴於人類反饋強化學習(RLHF),這種方法需要大量高質量的人類偏好數據來訓練獎勵模型。然而,構建這樣一個數據集不僅耗時費力,還面臨成本高昂的挑戰。因此,研究者們開始探索替代方案,其中基於 AI 反饋的強化學習(RLAIF)受到關注。這種方法利用強大的大語言模型自身生成獎勵信號,以降低對人類標
京東零售推出首個自研十億級時序大模型TimeHF 可預測商品銷量
京東零售技術團隊宣佈成功推出首個自研的十億級銷量預測時序大模型——TimeHF。該模型基於人類反饋的強化學習技術(RLHF),首次將其應用於銷量預測領域,預測準確度大幅提升10%以上,顯著降低了需求端預測的不確定性。這一成果不僅在京東內部的2萬種商品自動化補貨場景中取得了卓越表現
