阿里巴巴達摩院聯合魔搭社區ModelScope近期宣佈開源一項新的多語言基準測試集P-MMEval,旨在全面評估大型語言模型(LLM)的多語言能力,並進行跨語言遷移能力的比較分析。這一測試集覆蓋了基礎和專項能力的高效數據集,確保了所有挑選的數據集中多語言覆蓋的一致性,並提供了跨多種語言的並行樣本,最高支持來自8個不同語族的10種語言,包括英語、中文、阿拉伯語、西班牙語、日語、韓語、泰語、法語、葡萄牙語和越南語。
P-MMEval的推出響應了開發和迭代大型語言模型時對準確且並行評估結果的需求,這對於識別模型的多語言能力和量化性能至關重要。早期工作主要集中在單一任務評估上,而近期研究提出了一些大規模多語言多任務評估基準,統一了多個具有代表性的獨立基準任務。然而,這些大規模基準測試集在覆蓋多語言種類上並不一致。

P-MMEval基於一種基於顯著性檢驗的方法挑選可用且合理的基準測試集,整合了基礎自然語言處理任務和能力特定的評估任務,確保每個任務在語言覆蓋上的一致性,並提供跨語言的平行樣本,以便進行一致的比較。對於任務多樣性,P-MMEval涵蓋了兩個關鍵的基礎NLP任務(生成和理解)以及當前LLM的五種核心能力。在語言多樣性方面,P-MMEval統一了涵蓋八個語系的十種不同語言。
P-MMEval數據集已經集成到司南評測體系OpenCompass和EvalScope評測框架中,使用這兩個框架均可以執行評測任務。OpenCompass提供了一個開源、高效、全面的大模型評測開放平臺,支持大語言模型、多模態模型各類模型的一站式評測,並定期公佈評測結果榜單。P-MMEval也在第一時間接入了OpenCompass的評測體系,可使用司南OpenCompass開源工具完成評測任務。
研究人員評估了幾種代表性的指令調優模型的性能,包括閉源模型GPT-4o、Claude-3.5和開源模型LLaMA3.1、LLaMA3.2、Qwen2.5等。實驗結果表明,除了LLaMA3.2系列外,所有模型的多語言能力隨着模型規模的增加而提高。Qwen2.5在理解和專項能力任務上表現出強大的多語言性能,而Gemma2在生成任務上表現出色。閉源模型總體上優於開源模型。
P-MMEval的推出爲大模型的多語言能力評估提供了新的工具和方法,有助於推動多語言NLP技術的發展和應用。
數據集鏈接:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
