崑崙萬維發佈全新大模型獎勵模型Skywork-Reward

崑崙萬維科技股份有限公司近日宣佈，公司研發的兩款全新獎勵模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B在國際權威的獎勵模型評估基準RewardBench上表現卓越，其中Skywork-Reward-Gemma-2-27B模型更是榮獲榜首，得到了RewardBench官方的高度認可。

獎勵模型在強化學習中佔據核心地位，對智能體在不同狀態下的表現進行評估，並提供獎勵信號指導智能體的學習過程，使其能夠在特定環境下做出最優選擇。在大語言模型的訓練中，獎勵模型的作用尤爲關鍵，有助於模型更準確地理解和生成符合人類偏好的內容。

微信截圖_20240913083436.png

RewardBench是一個專門評估大語言模型中獎勵模型有效性的基準測試榜單，通過多項任務對模型進行綜合評估，包括對話、推理和安全性等領域。該榜單的測試數據集由提示詞、被選響應和被拒絕響應組成的三元組構成，用以測試獎勵模型是否能夠在給定提示詞的情況下，將被選響應正確地排在被拒絕響應之前。

崑崙萬維的Skywork-Reward模型通過精心挑選的偏序數據集和相對較小的基座模型進行開發，與現有獎勵模型相比，其偏序數據僅來源於網絡公開數據，並通過特定篩選策略獲得高質量的偏好數據集。這些數據涵蓋了廣泛的主題，包括安全性、數學與代碼等，並經過人工驗證，確保數據的客觀性和獎勵差距的顯著性。

經過測試，崑崙萬維的獎勵模型在對話、安全性等領域展現了出色的表現，尤其在面對困難樣本時，只有Skywork-Reward-Gemma-2-27B模型給出了正確的預測。這一成就標誌着崑崙萬維在全球AI領域的技術實力和創新能力，同時也爲AI技術的發展和應用提供了新的可能性。

27B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B

DeepMind 推出 Crome:提升大型語言模型對人類反饋的對齊能力

在人工智能領域，獎勵模型是對齊大型語言模型（LLMs）與人類反饋的關鍵組成部分，但現有模型面臨着 “獎勵黑客” 問題。這些模型往往關注表面的特徵，例如回覆的長度或格式，而不是識別真正的質量指標，如事實準確性和相關性。問題的根源在於，標準訓練目標無法區分訓練數據中存在的虛假關聯和真實的因果驅動因素。這種失敗導致了脆弱的獎勵模型（RMs），從而生成不對齊的策略。爲了解決這一問題，需要一種利用因果理解來訓練 RMs 的新方法，以便對因果質量屬性敏感，並對

崑崙萬維再次開源獎勵模型Skywork-Reward-V2

2025年7月4日，崑崙萬維乘勢而上，繼續開源第二代獎勵模型Skywork-Reward-V2系列。此係列共包含8個基於不同基座模型、參數規模從6億到80億不等的獎勵模型，一經推出便在七大主流獎勵模型評測榜單中全面奪魁，成爲開源獎勵模型領域的焦點。獎勵模型在從人類反饋中強化學習（RLHF）過程中起着關鍵作用。爲打造新一代獎勵模型，崑崙萬維構建了包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理上，團隊採用人機協同的兩階段流程，將人工標註的高質量與模型的規模化處理能力相結合。第一階段，先構建未經驗證的初始偏好池，藉助

DeepSeek 與清華聯合研究:創新獎勵模型推理方法，提升可擴展性

近日，DeepSeek 和清華的研究者發佈新論文，探討了獎勵模型的推理時 Scaling 方法，讓 DeepSeek R2似乎更近一步。目前，強化學習在大語言模型的大規模後訓練階段廣泛應用，但面臨爲大語言模型獲取準確獎勵信號的挑戰。研究者發現，採用點式生成式獎勵建模（GRM）能提升模型適應能力和推理階段可擴展性。爲此，他們提出自我原則點評調優(SPCT)學習方法，經此訓練得到 DeepSeek - GRM 模型，如基於 Gemma -2-27B 訓練的 DeepSeek - GRM -27B。實驗顯示，SPCT 顯著提高了 GRM 的質量和可擴展性，在多個基準

螞蟻推出自研知識增強大模型服務框架KAG：提升知識推理準確率

在2024年的Inclusion·外灘大會上，螞蟻集團分享了其在構建知識增強的專業智能體方面的最新進展，並推出了知識圖譜與大模型結合的研發成果——知識增強大模型服務框架KAG。該框架由螞蟻集團知識圖譜負責人梁磊介紹，旨在通過圖譜邏輯符號引導決策和檢索，顯著提升垂直領域決策的精準性和邏輯嚴謹性。

iPhone 16引入革命性相機控制鍵，AI可能纔是相機控制鍵最終目的