2024年7月19日,RWKV開源基金會宣佈全球開源了RWKV-6-World14B模型,這是目前最強的稠密純RNN大語言模型。該模型在最新的性能測試中表現優異,英文性能與Llama213B相當,並且在多語言性能上顯著領先,支持全球100多種語言和代碼。

模型的基準測試包括了4款接近14B參數規模的開源大語言模型,通過12個獨立的基準測試評估英語性能,以及xLAMBDA、xStoryCloze、xWinograd和xCopa四種基準測試評估多語言能力。RWKV-6-World14B在這些測試中均表現出色,特別是在“無法作弊的模型評測”Uncheatable Eval排行榜中,綜合評測分數超過了llama213B和Qwen1.514B。

微信截圖_20240722082902.png

RWKV-6-World14B模型的性能提升得益於從RWKV-4到RWKV-6的架構改進。該模型在訓練時沒有加入任何基準測試的數據集,避免了特殊優化,因此其實際能力比評分排行更強。Uncheatable Eval評測中,RWKV-6-World14B在7月最新發布的arXiv論文、新聞、ao3小說和GitHub代碼等實時數據上進行了評估,顯示出其真實的建模能力和泛化能力。

目前,RWKV-6-World14B模型可以通過Hugging Face、ModelScope和WiseModel等平臺下載並本地部署。由於Ai00只支持safetensor(.st)格式的模型,也可以在Ai00HF倉庫中下載已經轉成.st格式的模型。本地部署並推理RWKV-6-World14B模型的顯存需求根據量化方式不同,從約10G到28G不等。

RWKV-6-World14B模型的效果預覽包括自然語言處理(情感分析、機器閱讀理解)、散文詩文學創作、閱讀並修改代碼、金融學論文選題建議、提取新聞關鍵內容、一句話擴寫文本以及編寫Python貪吃蛇小遊戲等多個應用場景。

需要注意的是,所有開源發佈的RWKV模型均爲基底模型,具備一定的指令和對話能力,但未進行特定任務的優化。如果希望RWKV模型在特定任務上表現良好,建議使用相關任務的數據集進行微調訓練。

項目地址:

  • Hugging Face:https://huggingface.co/BlinkDL/rwkv-6-world/tree/main

  • ModelScope:https://modelscope.cn/models/RWKV/rwkv-6-world/files

  • WiseModel:https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file