近年、OpenAIのoシリーズモデルやClaude3.5Sonnet、DeepSeek-R1などの大規模言語モデルが急速に発展し、人工知能の知識や推論能力が注目を集めています。しかし、多くのユーザーが実際の使用において、これらのモデルが入力された指示を完全に従わない場合があることを発見しています。これにより、出力内容は良いものであるものの、特定の形式や内容の要件を満たしていないことがあります。これらのモデルの指示遵循能力を深く研究・評価するために、メイティアンのM17チームは新しい評価基準「Meeseeks」をリリースしました。

Meeseeksは大規模モデルの指示に従う能力を評価することに特化しており、革新的な評価アプローチを採用しています。従来の評価方法とは異なり、Meeseeksはモデルがユーザーの指示を厳密に遵守しているかどうかを評価し、単純に回答の知識的正確性を評価するものではありません。この評価フレームワークでは、指示に従う能力を3つのレベルに分解し、評価の深さと広さを確保しています。具体的には、タスクの核心的な意図の理解、具体的な制約タイプの実現、細粒度ルールの遵守です。

image.png

最近の評価では、Meeseeksに基づく結果によると、推論モデルのo3-mini(high)が絶対的な優位で第1位を獲得し、もう一つのバージョンであるo3-mini(medium)が続き、Claude3.7Sonnetは安定して第3位を維持しています。一方で、DeepSeek-R1とGPT-4oの成績は不十分であり、それぞれ第7位と第8位でした。

Meeseeksの特徴はその広範な評価カバー範囲と高難易度のデータ設計にあります。また、「複数ラウンド修正」モードを導入しており、最初の回答が要件を満たしていない場合に修正を許可します。このモードはモデルの自己修正能力を著しく向上させ、特に複数ラウンドのフィードバック後に、参加したすべてのモデルの指示に従う正確率が顕著に向上しました。

Meeseeksによる評価を通じて、研究チームは異なるモデル間での指示に従う能力の違いを明らかにし、大規模モデルの今後の研究にとって貴重な参考資料を提供しました。

魔搭コミュニティ:https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks

GitHub: https://github.com/ADoublLEN/Meeseeks

Huggingface:https://huggingface.co/datasets/meituan/Meeseeks