阿里巴巴旗下Qwen團隊宣佈推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。這一發布引發了全球AI開發者社區的廣泛關注,被認爲是偏好建模領域的重要突破。
WorldPM:偏好建模的規模化新探索
WorldPM(World Preference Modeling)是Qwen團隊在偏好建模領域的最新力作。根據官方介紹,該模型通過對1500萬條偏好數據的超大規模訓練,驗證了偏好建模遵循與語言建模相似的規模化定律(scaling laws)。這一發現意味着,隨着數據和模型規模的擴展,偏好模型能夠學習到統一的偏好表示,從而顯著提升模型在監督學習中的表現。
WorldPM-72B系列基於72億參數規模打造,專爲評估和優化其他模型的輸出而設計。官方表示,與從零開始訓練相比,基於WorldPM進行微調能夠顯著提升性能,尤其在需要捕捉人類偏好的場景中表現優異。這一特性使其成爲強化學習和監督微調的理想工具,爲開發者提供了高效的模型優化路徑。
開源戰略:賦能全球開發者
Qwen團隊一如既往地秉持開源精神,WorldPM系列模型均在Apache2.0許可下發布,現已登陸Hugging Face平臺,供全球開發者免費下載和使用。這種開放策略不僅降低了技術門檻,還進一步鞏固了Qwen在全球開源AI生態中的領先地位。X平臺上的開發者反饋顯示,WorldPM的發佈被譽爲“開源模型生態的新里程碑”,尤其在監督學習和偏好評估領域引發熱烈討論。
值得注意的是,WorldPM並非通用的對話模型,而是專注於爲其他模型提供偏好評分和優化指導。例如,開發者可以利用WorldPM-72B對生成式AI的回答進行打分,從而提升模型在特定任務上的表現。這種專業化的定位使其在AI研發鏈中扮演了關鍵角色。
技術亮點:規模與效率的平衡
WorldPM的研發過程中,Qwen團隊收集了來自公共論壇的多樣化偏好數據,覆蓋多個用戶社區,確保了模型在不同文化和語言背景下的適應性。訓練數據規模達到1500萬條,結合1.5B到72B參數的模型架構,WorldPM展現了強大的泛化能力。官方技術報告指出,WorldPM在對抗性評估中表現出色,測試損失呈冪律下降,表明模型能夠有效識別包含故意錯誤的回答以及不相關或不完整的回答。
此外,WorldPM在風格偏見上的優化也值得關注。隨着模型規模的擴大,WorldPM逐漸呈現出風格中立的特點,克服了主觀評估中常見的偏見問題。這使其在客觀領域的表現尤爲突出,尤其在編碼、數學等需要精確推理的任務中展現了顯著優勢。
huggingface:https://huggingface.co/Qwen/WorldPM-72B