崑崙萬維科技股份有限公司近日宣佈,公司研發的兩款全新獎勵模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B在國際權威的獎勵模型評估基準RewardBench上表現卓越,其中Skywork-Reward-Gemma-2-27B模型更是榮獲榜首,得到了RewardBench官方的高度認可。

獎勵模型在強化學習中佔據核心地位,對智能體在不同狀態下的表現進行評估,並提供獎勵信號指導智能體的學習過程,使其能夠在特定環境下做出最優選擇。在大語言模型的訓練中,獎勵模型的作用尤爲關鍵,有助於模型更準確地理解和生成符合人類偏好的內容。

微信截圖_20240913083436.png

RewardBench是一個專門評估大語言模型中獎勵模型有效性的基準測試榜單,通過多項任務對模型進行綜合評估,包括對話、推理和安全性等領域。該榜單的測試數據集由提示詞、被選響應和被拒絕響應組成的三元組構成,用以測試獎勵模型是否能夠在給定提示詞的情況下,將被選響應正確地排在被拒絕響應之前。

崑崙萬維的Skywork-Reward模型通過精心挑選的偏序數據集和相對較小的基座模型進行開發,與現有獎勵模型相比,其偏序數據僅來源於網絡公開數據,並通過特定篩選策略獲得高質量的偏好數據集。這些數據涵蓋了廣泛的主題,包括安全性、數學與代碼等,並經過人工驗證,確保數據的客觀性和獎勵差距的顯著性。

經過測試,崑崙萬維的獎勵模型在對話、安全性等領域展現了出色的表現,尤其在面對困難樣本時,只有Skywork-Reward-Gemma-2-27B模型給出了正確的預測。這一成就標誌着崑崙萬維在全球AI領域的技術實力和創新能力,同時也爲AI技術的發展和應用提供了新的可能性。

27B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B