近日,一篇名爲《排行榜幻覺》的論文在學術界引發了廣泛關注,尤其是對大型語言模型(LLM)領域中備受推崇的 Chatbot Arena 排行榜提出了嚴厲質疑。研究指出,排行榜的可信度因數據訪問不平等、模型私下測試等問題而受到挑戰。
論文顯示,一些大型科技公司可以在公開發布之前對多個模型版本進行私下測試。例如,Meta 在發佈 Llama4之前測試了多達27個版本,然後只對外公佈表現最佳的模型。這種 “最佳選擇” 策略不僅導致了模型排行榜的膨脹,還可能誤導用戶對模型真實能力的判斷。
此外,研究還發現,專有模型獲得的用戶反饋數據遠超過開源模型,這種數據訪問的不平等使得一些開源模型在競爭中處於劣勢。以 Google 和 OpenAI 爲例,它們分別佔據了測試數據的19.2% 和20.4%,而83個開源模型僅獲得了約29.7% 的數據。這意味着,開源模型在排行榜上難以獲得公平的展示機會。
更令人擔憂的是,研究團隊還發現,243個模型中有205個被悄然棄用,這一數量遠超官方統計的47個。這種現象使得排行榜的公正性進一步受到質疑。
針對論文提出的問題,大模型競技場的官方迴應表示,雖然存在私下測試的情況,但這並不意味着排行榜存在偏見。同時,他們強調,排行榜的排名反映了大量用戶的真實偏好。不過,研究團隊認爲,這種快速刷榜的現象並不真實地反映模型的技術進步。
爲了提高排行榜的公正性,研究團隊提出了五項改進建議,包括禁止撤回提交分數、限制每個廠商的非正式模型數量,以及提高模型棄用的透明度等。
目前,隨着對排行榜機制的深入探討,AI 社區意識到,單一排行榜可能無法全面反映模型的能力,尋找多個評估平臺變得愈發重要。對此,卡帕西建議使用 OpenRouter,這是一個能夠統一訪問多種模型的接口,雖然目前在多樣性和使用量上還有待提升,但具有巨大的潛力。