人工智能領域知名的公共基準測試平臺LMArena近日遭遇信任危機。一項新的研究指出,該平臺的排名系統存在偏袒OpenAI、谷歌和Meta等大型供應商的結構性問題,其不透明的流程和頭部企業的固有優勢可能導致排名失真。然而,LMArena運營團隊已公開否認這些指控。

LMArena通過向用戶展示不同大型語言模型(LLM)的回覆對比,並由用戶投票選出更優者,最終形成廣泛被行業引用的模型性能排行榜。企業常藉此展示自身模型的優越性。
但由Cohere Labs、普林斯頓大學和麻省理工學院的研究人員聯合進行的一項分析,基於2024年1月至2025年4月期間收集的超過280萬條模型比較記錄,揭示了LMArena排名可能存在的偏差。研究人員認爲,Meta、谷歌和OpenAI等公司能夠私下測試其模型的多個版本,並僅選擇性能最佳的版本公開展示在排行榜上,其餘版本則被移除。這種被稱爲“分數遊戲”的做法,使得最終發佈的模型往往是經過精心挑選的“尖子生”。例如,Meta在發佈Llama4之前至少測試了27個內部版本。Meta隨後也承認,在用戶批評後,他們部署了專門針對基準測試優化的Llama4聊天機器人,而其未經優化的“Maverick”模型在LMArena上的表現則遜色不少。受控實驗也表明,提交多個幾乎相同的模型變體可以顯著提高得分。
此外,研究還指出用戶數據的不平等分配進一步加劇了這種偏差。通過API接口,大型供應商能夠收集用戶與模型交互的數據,包括提示和偏好設置,但這些數據並未公平地共享。OpenAI和谷歌的模型獲得了絕大多數的用戶交互數據(佔比高達61.4%),這使得它們能夠利用更多的數據進行優化,甚至可能針對LMArena平臺進行專門優化,從而提升排名,即使其在外部基準上的表現並非最優。
研究人員還發現,大量模型在未公開通知的情況下從LMArena平臺移除,這對開源模型的影響尤爲顯著。在評估的243個模型中,有205個模型未經解釋就被停用,只有47個模型被正式標記爲棄用。這種缺乏透明度的模型移除機制,可能會扭曲排名的歷史連貫性和參考價值。
針對上述研究結果,LMArena團隊在X平臺發佈聲明堅決否認,強調其排名“反映了數百萬新鮮、真實的人類偏好”,並認爲提交前的測試是合法手段,旨在確定最符合用戶期望的模型變體。他們認爲,利用測試數據優化模型以滿足用戶偏好是一件好事。LMArena團隊還表示,排名的依據僅爲最終公開發布的模型,而非內部測試結果,且平臺的源代碼和數百萬用戶交互數據均已公開,其設計理念是開放的。
儘管如此,研究人員仍呼籲LMArena進行改革,包括公開所有測試過的模型變體、限制供應商單次提交的版本數量、確保模型在用戶之間更公平地分配,並對模型移除進行清晰記錄。他們警告稱,若缺乏更嚴格的監督,LMArena最終可能獎勵的是針對排行榜的策略性優化,而非模型實際性能的提升。
Cohere 實驗室負責人兼該研究合著者之一Sara Hooker強調了LMArena日益增長的影響力及其所要求的“科學誠信”。前特斯拉和OpenAI工程師Andrej Karpathy也對LMArena的可靠性表示懷疑,他注意到Gemini模型在榜單上“遠高於第二名”,這與他個人使用體驗不符,並指出一些規模較小、缺乏實際知識的“相對隨機的模型”也常常出現在榜單前列,進一步引發了對排名真實性的質疑。
