近年來,隨着 OpenAI 的 o 系列模型、Claude3.5Sonnet 和 DeepSeek-R1等大型語言模型的快速發展,人工智能的知識和推理能力備受關注。然而,很多用戶在實際使用中發現,這些模型有時未能完全按照輸入的指令執行,導致輸出結果雖然內容不錯,卻並未滿足具體的格式或內容要求。爲了深入研究和評估這些模型的指令遵循能力,美團 M17團隊推出了全新的評測基準 ——Meeseeks。

Meeseeks 專注於評測大模型的指令遵循能力,採用了一種創新的評測視角。與傳統的評測方法不同,Meeseeks 關注的是模型是否嚴格遵循用戶的指令,而不單純評估回答的知識準確性。這一評測框架將指令遵循能力拆解爲三個層次,確保評估的深度與廣度,具體包括:任務核心意圖的理解、具體約束類型的實現和細粒度規則的遵循。

image.png

在最近的評測中,基於 Meeseeks 的結果顯示,推理模型 o3-mini(high)以絕對優勢奪得第一,另一版本 o3-mini(medium)緊隨其後,Claude3.7Sonnet 則穩居第三。相比之下,DeepSeek-R1和 GPT-4o 的表現則不盡如人意,排名分別爲第七和第八。

Meeseeks 的獨特之處在於其廣泛的評測覆蓋面和高難度的數據設計。此外,它引入了 “多輪糾錯” 模式,允許模型在初次回答不符合要求時進行修正。這一模式顯著提升了模型的自我糾錯能力,尤其是在多輪反饋後,所有參與的模型的指令遵循準確率都有明顯提高。

通過 Meeseeks 的評測,研究團隊不僅揭示了不同模型之間的指令遵循能力差異,還對大模型的未來研究提供了寶貴的參考依據。

魔搭社區:https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks

GitHub: https://github.com/ADoublLEN/Meeseeks

Huggingface:https://huggingface.co/datasets/meituan/Meeseeks