アリババ達摩院と魔搭コミュニティModelScopeは最近、大規模言語モデル(LLM)の多言語能力を包括的に評価し、クロスリンガル転移能力の比較分析を行うことを目的とした、新しい多言語ベンチマークテストセットP-MMEvalをオープンソースとして公開しました。
このテストセットは、基礎能力と専門能力の高効率データセットを網羅しており、選択されたすべてのデータセットにおいて多言語カバレッジの一貫性を確保し、複数の言語にまたがる並列サンプルを提供しています。最大8つの異なる語族に属する10の言語(英語、中国語、アラビア語、スペイン語、日本語、韓国語、タイ語、フランス語、ポルトガル語、ベトナム語)をサポートしています。

P-MMEvalの公開は、大規模言語モデルの開発と反復において、正確で並列的な評価結果が必要とされるというニーズに応えたものです。これは、モデルの多言語能力を特定し、性能を定量化するために非常に重要です。初期の研究は主に単一タスク評価に焦点を当てていましたが、最近の研究では、いくつかの代表的な独立したベンチマークタスクを統合した大規模な多言語多タスク評価ベンチマークが提案されています。しかし、これらの大規模ベンチマークテストセットは、多言語の種類の網羅性において一貫性に欠けていました。
P-MMEvalは、有意性検定に基づく方法で利用可能で妥当なベンチマークテストセットを選択し、基礎的な自然言語処理タスクと能力特化型の評価タスクを統合することで、各タスクにおける言語カバレッジの一貫性を確保し、クロスリンガルの並列サンプルを提供して、一貫した比較を可能にしています。タスクの多様性に関して、P-MMEvalは2つの重要な基礎NLPタスク(生成と理解)と、現在のLLMの5つのコア能力を網羅しています。言語の多様性に関して、P-MMEvalは8つの語族にわたる10種類の異なる言語を統合しています。
P-MMEvalデータセットは、司南評価システムOpenCompassとEvalScope評価フレームワークに統合されており、これらのフレームワークの両方を使用して評価タスクを実行できます。OpenCompassは、オープンソースで効率的で包括的な大規模モデル評価オープンプラットフォームを提供し、大規模言語モデル、マルチモーダルモデルなど、あらゆる種類のモデルのワンストップ評価をサポートし、定期的に評価結果のランキングを発表しています。P-MMEvalもOpenCompassの評価システムにすぐに統合され、司南OpenCompassオープンソースツールを使用して評価タスクを実行できます。
研究者らは、クローズドソースモデルのGPT-4o、Claude-3.5、オープンソースモデルのLLaMA3.1、LLaMA3.2、Qwen2.5など、いくつかの代表的な指示微調整モデルの性能を評価しました。実験結果によると、LLaMA3.2シリーズを除き、すべてのモデルの多言語能力はモデル規模の増加とともに向上しました。Qwen2.5は、理解と専門能力タスクにおいて強力な多言語性能を示し、Gemma2は生成タスクにおいて優れた性能を示しました。クローズドソースモデルは全体としてオープンソースモデルよりも優れていました。
P-MMEvalの公開は、大規模モデルの多言語能力評価のための新しいツールと方法を提供し、多言語NLP技術の発展と応用を促進するのに役立ちます。
データセットリンク:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
