文章分析了當前大模型評測體系中的“跑分亂象”,稱大模型榜單廣泛存在“家家第一”的情況。現有的開源跑分數據集會引發“刷題”現象;而封閉的私有數據集又會影響公平性。此外,部分榜單的評測維度也不夠科學全面。文章建議建立權威的評測體系,開源評測工具與流程以保證公平,但評測數據集則採用開放歷史+封閉正式的模式。此外,大模型的商業化遠比模型的參數和榜單排名更爲重要。