近日,Meta 公司發佈的開源大模型 Llama-4-Maverick 在 LMArena 的排行榜上從第二名直降至第32名,這一劇烈波動引發了開發者們的廣泛質疑,認爲 Meta 可能通過提交特供版本以刷榜。事情的起因要追溯到4月6日,Meta 發佈了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三個版本。其中,Llama-4-Maverick 在初期的評估中表現亮眼,位列 LMArena 排行榜的第二名,僅次於 Gemini2.5Pro。
然而,隨着開發者對 Llama4開源版的實際使用反饋逐漸披露,這款模型的聲譽迅速下滑。一些開發者發現 Meta 提交給 LMArena 的版本與他們所公開的開源版本存在顯著差異,這引發了對 Meta 是否存在刷榜行爲的質疑。針對這一問題,Chatbot Arena 官方於4月8日確認,Meta 提供的確實是一個 “特供版”,並表示將考慮更新排行榜。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
根據 Chatbot Arena 的說法,Meta 首次提交的 Llama-4-Maverick-03-26-Experimental 是一個實驗性優化版本,這個版本當時排名第二。而修正後的開源版 Llama-4-Maverick-17B-128E-Instruct,雖然擁有17B 的激活參數和128個 MoE 專家,排名卻僅爲32名,遠遠落後於 Gemini2.5Pro、GPT4o 等更高排名的模型,甚至不及基於上一代模型改造的 Llama-3.3-Nemotron-Super-49B-v1。
對於 Llama-4-Maverick-03-26-Experimental 爲何表現不如預期,Meta 在最近的一次發佈會上解釋稱,該模型是 “專門針對對話進行優化” 的,因此在 LM Arena 上的表現相對較好。這種優化雖然在排行榜上取得了高分,但也使得開發者們在不同場景下難以準確預測該模型的實際表現。
Meta 發言人向 TechCrunch 表示,Meta 會繼續探索各種定製版本,並期待開發者根據自己的需求對 Llama4進行調整和改進。公司希望看到開發者們的創造性成果,同時也重視他們的反饋。
