Meta 新模型 Llama-4-Maverick 排名驟降，引發刷榜質疑

近日，Meta 公司發佈的開源大模型 Llama-4-Maverick 在 LMArena 的排行榜上從第二名直降至第32名，這一劇烈波動引發了開發者們的廣泛質疑，認爲 Meta 可能通過提交特供版本以刷榜。事情的起因要追溯到4月6日，Meta 發佈了其最新的大模型 Llama4，包括 Scout、Maverick 和 Behemoth 三個版本。其中，Llama-4-Maverick 在初期的評估中表現亮眼，位列 LMArena 排行榜的第二名，僅次於 Gemini2.5Pro。

然而，隨着開發者對 Llama4開源版的實際使用反饋逐漸披露，這款模型的聲譽迅速下滑。一些開發者發現 Meta 提交給 LMArena 的版本與他們所公開的開源版本存在顯著差異，這引發了對 Meta 是否存在刷榜行爲的質疑。針對這一問題，Chatbot Arena 官方於4月8日確認，Meta 提供的確實是一個 “特供版”，並表示將考慮更新排行榜。

LLM 羊駝數學大模型

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

根據 Chatbot Arena 的說法，Meta 首次提交的 Llama-4-Maverick-03-26-Experimental 是一個實驗性優化版本，這個版本當時排名第二。而修正後的開源版 Llama-4-Maverick-17B-128E-Instruct，雖然擁有17B 的激活參數和128個 MoE 專家，排名卻僅爲32名，遠遠落後於 Gemini2.5Pro、GPT4o 等更高排名的模型，甚至不及基於上一代模型改造的 Llama-3.3-Nemotron-Super-49B-v1。

對於 Llama-4-Maverick-03-26-Experimental 爲何表現不如預期，Meta 在最近的一次發佈會上解釋稱，該模型是 “專門針對對話進行優化” 的，因此在 LM Arena 上的表現相對較好。這種優化雖然在排行榜上取得了高分，但也使得開發者們在不同場景下難以準確預測該模型的實際表現。

Meta 發言人向 TechCrunch 表示，Meta 會繼續探索各種定製版本，並期待開發者根據自己的需求對 Llama4進行調整和改進。公司希望看到開發者們的創造性成果，同時也重視他們的反饋。

騰訊擬接盤Manus成最大股東，估值20億美元發力智能體生態

7月10日消息，騰訊正洽談成爲新加坡AI初創Manus最大股東。此前Meta於2025年底達成的超20億美元（約136億元）收購交易已被要求撤銷。現有股東騰訊、真格基金、紅杉中國及管理層擬以同樣估值支持撤銷該交易，騰訊將在此輪認購最多股份，交易完成後或保留少數股權。

Meta 新模型 Llama-4-Maverick 排名驟降，引發刷榜質疑

相關推薦

用“@”就能讓 AI 改你照片?Meta 剛上線的新功能被罵到連夜下架

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

騰訊擬接盤Manus成最大股東，估值20億美元發力智能體生態

Meta攜手博通與臺積電，自研AI芯片“Iris”將於9月正式量產

Meta被曝研發全天候AI眼鏡：支持超級感知與無感音視頻捕捉

Meta 新模型 Llama-4-Maverick 排名驟降，引發刷榜質疑

相關推薦

用“@”就能讓 AI 改你照片?Meta 剛上線的新功能被罵到連夜下架

​Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

騰訊擬接盤Manus成最大股東，估值20億美元發力智能體生態

Meta攜手博通與臺積電，自研AI芯片“Iris”將於9月正式量產

Meta被曝研發全天候AI眼鏡：支持超級感知與無感音視頻捕捉

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能