今天凌晨,阿里巴巴通義千問團隊發佈了Qwen2系列開源模型。該系列模型包括5個尺寸的預訓練和指令微調模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。關鍵信息顯示,這些模型的參數數量和性能較前一代 Qwen1.5有顯著提升。
對於模型的多語言能力,Qwen2系列投入了大量精力增加數據集的數量和質量,覆蓋英語和中文以外的27種其他語言。經過對比測試,大型模型(70B + 參數)在自然語言理解、編碼、數學能力等方面表現出色,Qwen2-72B 模型更在性能和參數數量方面超越前一代。
Qwen2模型不僅在基礎語言模型評估中展現出強大的能力,還在指令調優模型評估中獲得令人矚目的成績。其多語言能力在 M-MMLU 和 MGSM 等基準測試中表現出衆,展現出 Qwen2指令調優模型的強大潛力。
此次發佈的 Qwen2系列模型標誌着人工智能技術的新高度,爲全球 AI 應用和商業化提供了更廣闊的可能性。展望未來,Qwen2將進一步擴展模型規模和多模式能力,加速推動開源 AI 領域的發展。
模型信息
Qwen2系列包含5種尺寸的基礎和指令調優型號,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。我們在下表中說明了各型號的關鍵信息:
| 楷模 | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-57B-A14B | Qwen2-72B |
|---|---|---|---|---|---|
| # 參數 | 0.49億 | 1.54億 | 7.07B | 57.41B | 72.71B |
| # 非 Emb 參數 | 0.35億 | 1.31B | 5.98億 | 56.32億 | 70.21B |
| 質量保證 | 真的 | 真的 | 真的 | 真的 | 真的 |
| 領帶嵌入 | 真的 | 真的 | 錯誤的 | 錯誤的 | 錯誤的 |
| 上下文長度 | 3.2萬 | 3.2萬 | 128千 | 64千 | 128千 |
具體來說,之前在 Qwen1.5中,只有 Qwen1.5-32B 和 Qwen1.5-110B 採用了 Group Query Attention(GQA)。這次,我們針對所有模型大小都應用了 GQA,以便它們在模型推理中享受更快的速度和更少內存佔用的好處。對於小模型,我們更喜歡應用 tying embedding,因爲大型稀疏 embedding 佔了模型總參數的很大一部分。
在上下文長度方面,所有基礎語言模型均已在32K 個 token 的上下文長度數據上進行了預訓練,我們在 PPL 評估中觀察到高達128K 的令人滿意的外推能力。但是,對於指令調整模型,我們並不滿足於僅僅進行 PPL 評估;我們需要模型能夠正確理解長上下文並完成任務。在表中,我們列出了指令調整模型的上下文長度能力,這些能力是通過對 Needle in a Haystack任務的評估來評估的。值得注意的是,當使用 YARN 進行增強時,Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 模型都表現出令人印象深刻的能力,可以處理高達128K 個 token 的上下文長度。
我們付出了巨大的努力來增加預訓練和指令調整數據集的數量和質量,這些數據集涵蓋了英語和中文以外的多種語言,以增強其多語言能力。儘管大型語言模型具有推廣到其他語言的固有能力,但我們明確強調在我們的訓練中加入了27種其他語言:
| 區域 | 語言 |
|---|---|
| 西歐 | 德語, 法語, 西班牙語, 葡萄牙語, 意大利語, 荷蘭語 |
| 東歐和中歐 | 俄語、捷克語、波蘭語 |
| 中東 | 阿拉伯語、波斯語、希伯來語、土耳其語 |
| 東亞 | 日語、韓語 |
| 東南亞 | 越南語、泰語、印尼語、馬來語、老撾語、緬甸語、宿務語、高棉語、他加祿語 |
| 南亞 | 印地語、孟加拉語、烏爾都語 |
此外,我們投入了大量精力來解決多語言評估中經常出現的代碼轉換問題。因此,我們的模型處理這種現象的能力顯著提高。使用通常會引發跨語言代碼轉換的提示進行的評估證實,相關問題顯著減少。
表現
對比測試結果顯示,大規模模型(70B+參數)的性能相比Qwen1.5有大幅提升。本次測試以大規模模型Qwen2-72B爲中心。在基礎語言模型方面,我們對比了Qwen2-72B和當前最佳的開放模型在自然語言理解、知識獲取、編程能力、數學能力、多語言能力等能力方面的性能。得益於精心挑選的數據集和優化的訓練方法,Qwen2-72B的表現優於Llama-3-70B等領先模型,在參數數量較少的情況下,其性能甚至超過了上一代Qwen1.5-110B。

在進行大量大規模預訓練之後,我們進行後訓練,以進一步增強 Qwen 的智能,使其更接近人類。此過程進一步提高了模型在編碼、數學、推理、指令遵循、多語言理解等領域的能力。此外,它使模型的輸出與人類價值觀保持一致,確保其有用、誠實且無害。我們的後訓練階段採用可擴展訓練和最少人工註釋的原則設計。具體而言,我們研究如何通過各種自動對齊策略獲得高質量、可靠、多樣化和創造性的演示數據和偏好數據,例如數學的拒絕抽樣、編碼和指令遵循的執行反饋、創意寫作的反向翻譯、角色扮演的可擴展監督等。至於訓練,我們採用了監督微調、獎勵模型訓練和在線 DPO 訓練的組合。我們還採用了一種新穎的在線合併優化器來最大限度地減少對齊稅。這些共同努力大大提高了我們模型的能力和智能,如下表所示。

我們對 Qwen2-72B-Instruct 進行了全面評估,涵蓋了各個領域的16個基準測試。Qwen2-72B-Instruct 在獲得更好的能力和與人類價值觀保持一致之間取得了平衡。具體來說,Qwen2-72B-Instruct 在所有基準測試中都明顯優於 Qwen1.5-72B-Chat,並且與 Llama-3-70B-Instruct 相比也達到了具有競爭力的性能。
在較小的模型上,我們的 Qwen2模型也優於類似甚至更大尺寸的 SOTA 模型。與剛剛發佈的 SOTA 模型相比,Qwen2-7B-Instruct 仍然在各個基準測試中表現出優勢,特別是在編碼和中文相關指標上表現出色。

強調
編碼與數學
我們一直致力於提升 Qwen 的高級功能,特別是在編碼和數學方面。在編碼方面,我們成功整合了CodeQwen1.5的代碼訓練經驗和數據,從而使 Qwen2-72B-Instruct 在各種編程語言方面取得了顯著的改進。在數學方面,通過利用廣泛且高質量的數據集,Qwen2-72B-Instruct 在解決數學問題方面體現出了更強的能力。

長上下文理解
在 Qwen2中,所有指令調整模型都在32k 長度上下文中進行了訓練,並使用YARN或Dual Chunk Attention等技術推斷到更長的上下文長度。
下圖是我們在Needle in a Haystack上的測試結果,值得注意的是,Qwen2-72B-Instruct 能夠完美處理128k 上下文中的信息提取任務,再加上其與生俱來的強大性能,在資源充足的情況下,它成爲處理長文本任務的首選。
此外,值得注意的是該系列其他型號的令人印象深刻的功能:Qwen2-7B-Instruct 幾乎完美地處理長達128k 的上下文,Qwen2-57B-A14B-Instruct 管理長達64k 的上下文,而該系列中的兩個較小的型號支持32k 的上下文。
除了長上下文模型之外,我們還開源了一個代理解決方案,用於高效處理包含多達100萬個標記的文檔。有關更多詳細信息,請參閱我們關於此主題的專門博客文章。

安全與責任
下表展示了大型模型針對四類多語言不安全查詢(非法活動、欺詐、色情、隱私暴力)產生的有害響應占比。測試數據來自Jailbreak,並翻譯成多種語言進行評估。我們發現 Llama-3無法有效處理多語言提示,因此未將其納入比較範圍。通過顯著性檢驗(P_value),我們發現 Qwen2-72B-Instruct 模型在安全性方面的表現與 GPT-4相當,並且顯著優於 Mistral-8x22B 模型。
| 語言 | 非法活動 | 欺詐罪 | 色情 | 隱私暴力 | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4 | 米斯特拉爾-8x22B | Qwen2-72B-指導 | GPT-4 | 米斯特拉爾-8x22B | Qwen2-72B-指導 | GPT-4 | 米斯特拉爾-8x22B | Qwen2-72B-指導 | GPT-4 | 米斯特拉爾-8x22B | Qwen2-72B-指導 | |
| 中文 | 0% | 13% | 0% | 0% | 17% | 0% | 43% | 47% | 53% | 0% | 10% | 0% |
| 英文 | 0% | 7% | 0% | 0% | 23% | 0% | 37% | 67% | 63% | 0% | 27% | 3% |
| 應收賬 | 0% | 13% | 0% | 0% | 7% | 0% | 15% | 26% | 15% | 3% | 13% | 0% |
| 西文 | 0% | 7% | 0% | 3% | 0% | 0% | 48% | 64% | 50% | 3% | 7% | 3% |
| 法國 | 0% | 3% | 0% | 3% | 3% | 7% | 3% | 19% | 7% | 0% | 27% | 0% |
| 柯 | 0% | 4% | 0% | 3% | 8% | 4% | 17% | 29% | 10% | 0% | 26% | 4% |
| 點 | 0% | 7% | 0% | 3% | 7% | 3% | 47% | 57% | 47% | 4% | 26% | 4% |
| 日 | 0% | 10% | 0% | 7% | 23% | 3% | 13% | 17% | 10% | 13% | 7% | 7% |
| 六 | 0% | 4% | 0% | 4% | 11% | 0% | 22% | 26% | 22% | 0% | 0% | 0% |
| 平均的 | 0% | 8% | 0% | 3% | 11% | 2% | 27% | 39% | 31% | 3% | 16% | 2% |
使用 Qwen2進行開發
目前所有模型均已在 Hugging Face 和 ModelScope 中發佈,歡迎訪問模型卡查看詳細使用方法,並進一步瞭解每個模型的特性、性能等信息。
長期以來,有很多朋友支持着 Qwen 的發展,包括微調(Axolotl、Llama-Factory、Firefly、Swift、XTuner)、量化(AutoGPTQ、AutoAWQ、Neural Compressor)、部署(vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVino、TGI)、API 平臺(Together、Fireworks、OpenRouter)、本地運行(MLX、Llama.cpp、Ollama、LM Studio)、Agent 和 RAG 框架(LlamaIndex、CrewAI、OpenDevin)、評估(LMSys、OpenCompass、Open LLM Leaderboard)、模型訓練(Dolphin、Openbuddy)等。關於如何將 Qwen2與第三方框架一起使用,請參考各自的文檔以及我們的官方文檔。

還有很多團隊和個人爲 Qwen 做出了貢獻,我們並沒有提及。我們衷心感謝他們的支持,並希望我們的合作能夠促進開源 AI 社區的研究和發展。
執照
這次,我們將模型的許可改爲不同的。Qwen2-72B 及其指令調優模型仍使用原有的 Qianwen License,而其他所有模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B 和 Qwen2-57B-A14B,均轉而採用Apache2.0!我們相信,我們模型對社區的進一步開放可以加速 Qwen2在全球的應用和商業化。
Qwen2的下一步是什麼?
我們正在訓練更大的 Qwen2模型,以進一步探索模型擴展以及我們最近的數據擴展。此外,我們將 Qwen2語言模型擴展爲多模式,能夠理解視覺和音頻信息。在不久的將來,我們將繼續開源新模型以加速開源 AI。敬請期待!
引用
我們即將發佈 Qwen2的技術報告。歡迎引用!
@article{qwen2,附錄
基礎語言模型評估
基礎模型的評測主要關注自然語言理解、一般問答、編碼、數學、科學知識、推理、多語言能力等模型性能。
評估的數據集包括:
英語任務:MMLU(5次)、MMLU-Pro(5次)、GPQA(5次)、Theorem QA(5次)、BBH(3次)、HellaSwag(10次)、Winogrande(5次)、TruthfulQA(0次)、ARC-C(25次)
編碼任務:EvalPlus(0-shot)(HumanEval、MBPP、HumanEval+、MBPP+)、MultiPL-E(0-shot)(Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)
數學任務:GSM8K (4次)、MATH (4次)
中文任務:C-Eval(5-shot)、CMMLU (5-shot)
多語言任務:多考試(M3Exam5次、IndoMMLU3次、ruMMLU5次、mMMLU5次)、多理解(BELEBELE5次、XCOPA5次、XWinograd5次、XStoryCloze0次、PAWS-X5次)、多數學(MGSM8次)、多翻譯(Flores-1015次)
Qwen2-72B 性能
| 數據集 | DeepSeek-V2 | Mixtral-8x22B | 駱駝-3-70B | Qwen1.5-72B | Qwen1.5-110B | Qwen2-72B |
|---|---|---|---|---|---|---|
| 建築學 | 教育部 | 教育部 | 稠密 | 稠密 | 稠密 | 稠密 |
| #已激活參數 | 21B | 39B | 70B | 72B | 110B | 72B |
| #參數 | 236B | 140B | 70B | 72B | 110B | 72B |
| 英語 | ||||||
| 莫爾曼·盧 | 78.5 | 77.8 | 79.5 | 77.5 | 80.4 | 84.2 |
| MMLU-專業版 | - | 49.5 | 52.8 | 45.8 | 49.4 | 55.6 |
| 質量保證 | - | 34.3 | 36.3 | 36.3 | 35.9 | 37.9 |
| 定理問答 | - | 35.9 | 32.3 | 29.3 | 34.9 | 43.1 |
| 百比黑 | 78.9 | 78.9 | 81.0 | 65.5 | 74.8 | 82.4 |
| 希拉斯瓦格 | 87.8 | 88.7 | 88.0 | 86.0 | 87.5 | 87.6 |
| 大窗戶 | 84.8 | 85.0 | 85.3 | 83.0 | 83.5 | 85.1 |
| ARC-C | 70.0 | 70.7 | 68.8 | 65.9 | 69.6 | 68.9 |
| 誠實問答 | 42.2 | 51.0 | 45.6 | 59.6 | 49.6 | 54.8 |
| 編碼 | ||||||
| 人力評估 | 45.7 | 46.3 | 48.2 | 46.3 | 54.3 | 64.6 |
| 馬來西亞公共服務局 | 73.9 | 71.7 | 70.4 | 66.9 | 70.9 | 76.9 |
| 評估 | 55.0 | 54.1 | 54.8 | 52.9 | 57.7 | 65.4 |
| 多種的 | 44.4 | 46.7 | 46.3 | 41.8 | 52.7 | 59.6 |
| 數學 | ||||||
| GSM8K | 79.2 | 83.7 | 83.0 | 79.5 | 85.4 | 89.5 |
| 數學 | 43.6 | 41.7 | 42.5 | 34.1 | 49.6 | 51.1 |
| 中國人 | ||||||
| C-評估 | 81.7 | 54.6 | 65.2 | 84.1 | 89.1 | 91.0 |
| 加拿大蒙特利爾大學 | 84.0 | 53.4 | 67.2 | 83.5 | 88.3 | 90.1 |
| 多種語言 | ||||||
| 多項考試 | 67.5 | 63.5 | 70.0 | 66.4 | 75.6 | 76.6 |
| 多方理解 | 77.0 | 77.7 | 79.9 | 78.2 | 78.2 | 80.7 |
| 多元數學 | 58.8 | 62.9 | 67.1 | 61.7 | 64.4 | 76.0 |
| 多翻譯 | 36.0 | 23.3 | 38.0 | 35.6 | 36.2 | 37.8 |
Qwen2-57B-A14B
| 數據集 | 賈巴 | Mixtral-8x7B | 儀-1.5-34B | Qwen1.5-32B | Qwen2-57B-A14B |
|---|---|---|---|---|---|
| 建築學 | 教育部 | 教育部 | 稠密 | 稠密 | 教育部 |
| #已激活參數 | 12B | 12B | 34B | 32B | 14B |
| #參數 | 52B | 47B | 34B | 32B | 57B |
| 英語 | |||||
| 莫爾曼·盧 | 67.4 | 71.8 | 77.1 | 74.3 | 76.5 |
| MMLU-專業版 | - | 41.0 | 48.3 | 44.0 | 43.0 |
| 質量保證 | - | 29.2 | - | 30.8 | 34.3 |
| 定理問答 | - | 23.2 | - | 28.8 | 33.5 |
| 百比黑 | 45.4 | 50.3 | 76.4 | 66.8 | 67.0 |
| 希拉斯瓦格 | 87.1 | 86.5 | 85.9 | 85.0 | 85.2 |
| 維諾格蘭德 | 82.5 | 81.9 | 84.9 | 81.5 | 79.5 |
| ARC-C | 64.4 | 66.0 | 65.6 | 63.6 | 64.1 |
| 誠實問答 | 46.4 | 51.1 | 53.9 | 57.4 | 57.7 |
| 編碼 | |||||
| 人力評估 | 29.3 | 37.2 | 46.3 | 43.3 | 53.0 |
| 馬來西亞公共服務局 | - | 63.9 | 65.5 | 64.2 | 71.9 |
| 評估 | - | 46.4 | 51.9 | 50.4 | 57.2 |
| 多種的 | - | 39.0 | 39.5 | 38.5 | 49.8 |
| 數學 | |||||
| GSM8K | 59.9 | 62.5 | 82.7 | 76.8 | 80.7 |
| 數學 | - | 30.8 | 41.7 | 36.1 | 43.0 |
| 中國人 | |||||
| C-評估 | - | - | - | 83.5 | 87.7 |
| 加拿大蒙特利爾大學 | - | - | 84.8 | 82.3 | 88.5 |
| 多種語言 | |||||
| 多項檢查 | - | 56.1 | 58.3 | 61.6 | 65.5 |
| 多方理解 | - | 70.7 | 73.9 | 76.5 | 77.0 |
| 多元數學 | - | 45.0 | 49.3 | 56.1 | 62.3 |
| 多翻譯 | - | 29.8 | 30.0 | 33.5 | 34.5 |
Qwen2-7B
| 數據集 | 米斯特拉爾-7B | 傑瑪-7B | 駱駝-3-8B | Qwen1.5-7B | Qwen2-7B |
|---|---|---|---|---|---|
| # 參數 | 7.2B | 8.5億 | 8.0B | 7.7B | 7.6B |
| # 非 emb 參數 | 7.0B | 7.8億 | 7.0B | 6.5億 | 6.5億 |
| 英語 | |||||
| 莫爾曼·盧 | 64.2 | 64.6 | 66.6 | 61.0 | 70.3 |
| MMLU-專業版 | 30.9 | 33.7 | 35.4 | 29.9 | 40.0 |
| 質量保證 | 24.7 | 25.7 | 25.8 | 26.7 | 31.8 |
| 定理問答 | 19.2 | 21.5 | 22.1 | 14.2 | 31.1 |
| 百比黑 | 56.1 | 55.1 | 57.7 | 40.2 | 62.6 |
| 希拉斯瓦格 | 83.2 | 82.2 | 82.1 | 78.5 | 80.7 |
| 維諾格蘭德 | 78.4 | 79.0 | 77.4 | 71.3 | 77.0 |
| ARC-C | 60.0 | 61.1 | 59.3 | 54.2 | 60.6 |
| 誠實問答 | 42.2 | 44.8 | 44.0 | 51.1 | 54.2 |
| 編碼 | |||||
| 人力評估 | 29.3 | 37.2 | 33.5 | 36.0 | 51.2 |
| 馬來西亞公共服務局 | 51.1 | 50.6 | 53.9 | 51.6 | 65.9 |
| 評估 | 36.4 | 39.6 | 40.3 | 40.0 | 54.2 |
| 多種的 | 29.4 | 29.7 | 22.6 | 28.1 | 46.3 |
| 數學 | |||||
| GSM8K | 52.2 | 46.4 | 56.0 | 62.5 | 79.9 |
| 數學 | 13.1 | 24.3 | 20.5 | 20.3 | 44.2 |
| 中國人 | |||||
| C-評估 | 47.4 | 43.6 | 49.5 | 74.1 | 83.2 |
| 加拿大蒙特利爾大學 | - | - | 50.8 | 73.1 | 83.9 |
| 多種語言 | |||||
| 多項檢查 | 47.1 | 42.7 | 52.3 | 47.7 | 59.2 |
| 多方理解 | 63.3 | 58.3 | 68.6 | 67.6 | 72.0 |
| 多元數學 | 26.3 | 39.1 | 36.3 | 37.3 | 57.5 |
| 多翻譯 | 23.3 | 31.2 | 31.9 | 28.4 | 31.5 |
Qwen2-0.5B 和 Qwen2-1.5B
| 數據集 | 披-2 | 傑瑪-2B | 最低每千次展示費用 | Qwen1.5-1.8B | Qwen2-0.5B | Qwen2-1.5B |
|---|---|---|---|---|---|---|
| #非 Emb 參數 | 2.5億 | 2.0B | 2.4B | 1.3B | 0.35億 | 1.3B |
| 莫爾曼·盧 | 52.7 | 42.3 | 53.5 | 46.8 | 45.4 | 56.5 |
| MMLU-專業版 | - | 15.9 | - | - | 14.7 | 21.8 |
| 定理問答 | - | - | - | - | 8.9 | 15.0 |
| 人力評估 | 47.6 | 22.0 | 50.0 | 20.1 | 22.0 | 31.1 |
| 馬來西亞公共服務局 | 55.0 | 29.2 | 47.3 | 18.0 | 22.0 | 37.4 |
| GSM8K | 57.2 | 17.7 | 53.8 | 38.4 | 36.5 | 58.5 |
| 數學 | 3.5 | 11.8 | 10.2 | 10.1 | 10.7 | 21.7 |
| 百比黑 | 43.4 | 35.2 | 36.9 | 24.2 | 28.4 | 37.2 |
| 希拉斯瓦格 | 73.1 | 71.4 | 68.3 | 61.4 | 49.3 | 66.6 |
| 維諾格蘭德 | 74.4 | 66.8 | - | 60.3 | 56.8 | 66.2 |
| ARC-C | 61.1 | 48.5 | - | 37.9 | 31.5 | 43.9 |
| 誠實問答 | 44.5 | 33.1 | - | 39.4 | 39.7 | 45.9 |
| C-評估 | 23.4 | 28.0 | 51.1 | 59.7 | 58.2 | 70.6 |
| 加拿大蒙特利爾大學 | 24.2 | - | 51.1 | 57.8 | 55.1 | 70.3 |
指令調整模型評估
Qwen2-72B-指導
| 數據集 | 駱駝-3-70B-指導 | Qwen1.5-72B-聊天 | Qwen2-72B-指導 |
|---|---|---|---|
| 英語 | |||
| 莫爾曼·盧 | 82.0 | 75.6 | 82.3 |
| MMLU-專業版 | 56.2 | 51.7 | 64.4 |
| 質量保證 | 41.9 | 39.4 | 42.4 |
| 定理問答 | 42.5 | 28.8 | 44.4 |
| MT-Bench | 8.95 | 8.61 | 9.12 |
| 競技場-困難 | 41.1 | 36.1 | 48.1 |
| IFEval(提示嚴格訪問) | 77.3 | 55.8 | 77.6 |
| 編碼 | |||
| 人力評估 | 81.7 | 71.3 | 86.0 |
| 馬來西亞公共服務局 | 82.3 | 71.9 | 80.2 |
| 多種的 | 63.4 | 48.1 | 69.2 |
| 評估 | 75.2 | 66.9 | 79.0 |
| 活碼測試 | 29.3 | 17.9 | 35.7 |
| 數學 | |||
| GSM8K | 93.0 | 82.7 | 91.1 |
| 數學 | 50.4 | 42.5 | 59.7 |
| 中國人 | |||
| C-評估 | 61.6 | 76.1 | 83.8 |
| AlignBench | 7.42 | 7.28 | 8.27 |
Qwen2-57B-A14B-指導
| 數據集 | Mixtral-8x7B-Instruct-v0.1 | Yi-1.5-34B-聊天 | Qwen1.5-32B-聊天 | Qwen2-57B-A14B-指導 |
|---|---|---|---|---|
| 建築學 | 教育部 | 稠密 | 稠密 | 教育部 |
| #已激活參數 | 12B | 34B | 32B | 14B |
| #參數 | 47B | 34B | 32B | 57B |
| 英語 | ||||
| 莫爾曼·盧 | 71.4 | 76.8 | 74.8 | 75.4 |
| MMLU-專業版 | 43.3 | 52.3 | 46.4 | 52.8 |
| 質量保證 | - | - | 30.8 | 34.3 |
| 定理問答 | - | - | 30.9 | 33.1 |
| MT-Bench | 8.30 | 8.50 | 8.30 | 8.55 |
| 編碼 | ||||
| 人力評估 | 45.1 | 75.2 | 68.3 | 79.9 |
| 馬來西亞公共服務局 | 59.5 | 74.6 | 67.9 | 70.9 |
| 多種的 | - | - | 50.7 | 66.4 |
| 評估 | 48.5 | - | 63.6 | 71.6 |
| 活碼測試 | 12.3 | - | 15.2 | 25.5 |
| 數學 | ||||
| GSM8K | 65.7 | 90.2 | 83.6 | 79.6 |
| 數學 | 30.7 | 50.1 | 42.4 | 49.1 |
| 中國人 | ||||
| C-評估 | - | - | 76.7 | 80.5 |
| AlignBench | 5.70 | 7.20 | 7.19 | 7.36 |
Qwen2-7B-指導
| 數據集 | 駱駝-3-8B-指導 | Yi-1.5-9B-聊天 | GLM-4-9B-聊天 | Qwen1.5-7B-聊天 | Qwen2-7B-指導 |
|---|---|---|---|---|---|
| 英語 | |||||
| 莫爾曼·盧 | 68.4 | 69.5 | 72.4 | 59.5 | 70.5 |
| MMLU-專業版 | 41.0 | - | - | 29.1 | 44.1 |
| 質量保證 | 34.2 | - | - | 27.8 | 25.3 |
| 定理問答 | 23.0 | - | - | 14.1 | 25.3 |
| MT-Bench | 8.05 | 8.20 | 8.35 | 7.60 | 8.41 |
| 編碼 | |||||
| 人道主義 | 62.2 | 66.5 | 71.8 | 46.3 | 79.9 |
| 馬來西亞公共服務局 | 67.9 | - | - | 48.9 | 67.2 |
| 多種的 | 48.5 | - | - | 27.2 | 59.1 |
| 評估 | 60.9 | - | - | 44.8 | 70.3 |
| 活碼測試 | 17.3 | - | - | 6.0 | 26.6 |
| 數學 | |||||
| GSM8K | 79.6 | 84.8 | 79.6 | 60.3 | 82.3 |
| 數學 | 30.0 | 47.7 | 50.6 | 23.2 | 49.6 |
| 中國人 | |||||
| C-評估 | 45.9 | - | 75.6 | 67.3 | 77.2 |
| AlignBench | 6.20 | 6.90 | 7.01 | 6.20 | 7.21 |
Qwen2-0.5B-Instruct 和 Qwen2-1.5B-Instruct
| 數據集 | Qwen1.5-0.5B-聊天 | Qwen2-0.5B-指導 | Qwen1.5-1.8B-聊天 | Qwen2-1.5B-指導 |
|---|---|---|---|---|
| 莫爾曼·盧 | 35.0 | 37.9 | 43.7 | 52.4 |
| 人力評估 | 9.1 | 17.1 | 25.0 | 37.8 |
| GSM8K | 11.3 | 40.1 | 35.3 | 61.6 |
| C-評估 | 37.2 | 45.2 | 55.3 | 63.8 |
| IFEval(提示嚴格訪問) | 14.6 | 20.0 | 16.8 | 29.0 |
指令調整模型的多語言能力
我們在幾個跨語言開放基準以及人工評估中將 Qwen2指令調整模型與其他最近的 LLM 進行了比較。對於基準,我們在2個評估數據集上展示了結果:
- Okapi 的M-MMLU:多語言常識評估(我們用 ar、de、es、fr、it、nl、ru、uk、vi、zh 的子集進行評估)
- MGSM:對德語、英語、西班牙語、法語、日語、俄語、泰國語、中文和巴西語等語言進行數學評估
結果根據每個基準測試的語言平均得出,如下所示:
| 楷模 | M-MMLU(5次發射) | MGSM(0次射擊,CoT) |
|---|---|---|
| 專有法學碩士 | ||
| GPT-4-0613 | 78.0 | 87.0 |
| GPT-4-Turbo-0409 | 79.3 | 90.5 |
| GPT-4o-0513 | 83.2 | 89.6 |
| 克勞德-3-作品-20240229 | 80.1 | 91.0 |
| 克勞德-3-十四行詩-20240229 | 71.0 | 85.6 |
| 開源法學碩士 | ||
| command-r-plus-110b | 65.5 | 63.5 |
| Qwen1.5-7B-聊天 | 50.0 | 37.0 |
| Qwen1.5-32B-聊天 | 65.0 | 65.0 |
| Qwen1.5-72B-聊天 | 68.4 | 71.7 |
| Qwen2-7B-指導 | 60.0 | 57.0 |
| Qwen2-57B-A14B-指導 | 68.0 | 74.0 |
| Qwen2-72B-指導 | 78.0 | 86.6 |
對於人工評估,我們使用內部評估集將 Qwen2-72B-Instruct 與 GPT3.5、GPT4和 Claude-3-Opus 進行比較,其中包括10種語言 ar、es、fr、ko、th、vi、pt、id、ja 和 ru(分數範圍從1~5):
| 楷模 | 應收賬 | 西文 | 法國 | 柯 | 日 | 六 | 點 | ID | 賈 | 汝 | 平均的 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 克勞德-3-作品-20240229 | 4.15 | 4.31 | 4.23 | 4.23 | 4.01 | 3.98 | 4.09 | 4.40 | 3.85 | 4.25 | 4.15 |
| GPT-4o-0513 | 3.55 | 4.26 | 4.16 | 4.40 | 4.09 | 4.14 | 3.89 | 4.39 | 3.72 | 4.32 | 4.09 |
| GPT-4-Turbo-0409 | 3.44 | 4.08 | 4.19 | 4.24 | 4.11 | 3.84 | 3.86 | 4.09 | 3.68 | 4.27 | 3.98 |
| Qwen2-72B-指導 | 3.86 | 4.10 | 4.01 | 4.14 | 3.75 | 3.91 | 3.97 | 3.83 | 3.63 | 4.15 | 3.93 |
| GPT-4-0613 | 3.55 | 3.92 | 3.94 | 3.87 | 3.83 | 3.95 | 3.55 | 3.77 | 3.06 | 3.63 | 3.71 |
| GPT-3.5-Turbo-1106 | 2.52 | 4.07 | 3.47 | 2.37 | 3.38 | 2.90 | 3.37 | 3.56 | 2.75 | 3.24 | 3.16 |
按任務類型分組,結果如下:
| 楷模 | 知識 | 理解 | 創建 | 數學 |
|---|---|---|---|---|
| 克勞德-3-作品-20240229 | 3.64 | 4.45 | 4.42 | 3.81 |
| GPT-4o-0513 | 3.76 | 4.35 | 4.45 | 3.53 |
| GPT-4-Turbo-0409 | 3.42 | 4.29 | 4.35 | 3.58 |
| Qwen2-72B-指導 | 3.41 | 4.07 | 4.36 | 3.61 |
| GPT-4-0613 | 3.42 | 4.09 | 4.10 | 3.32 |
| GPT-3.5-Turbo-1106 | 3.37 | 3.67 | 3.89 | 2.97 |
這些結果證明了 Qwen2指令調整模型強大的多語言能力。
