一項新的獨立評估顯示,Meta 最新推出的 Llama4模型——Maverick 和 Scout 在標準測試中表現出色,但在複雜長上下文任務中表現欠佳。根據人工智能分析的“智能指數”,Maverick 得分49分,領先 Claude3.7Sonnet(得分未具體列出),但落後於 Deepseek V30324(53分);Scout 得分36分,與 GPT-4o-mini 相當,優於 Claude3.5Sonnet 和 Mistral Small3.1。兩款模型在推理、編碼和數學任務中表現穩定,未顯示明顯短板。

QQ20250408-092416.png

Maverick 的架構效率令人矚目,其活動參數僅爲 Deepseek V3的170億(對比370億),總參數佔60%(4020億對比6710億),且能處理圖像而非僅限於文本。價格方面,Maverick 每百萬輸入/輸出代幣均價爲0.24美元/0.77美元,Scout 爲0.15美元/0.4美元,低於 Deepseek V3,甚至比 GPT-4o 便宜10倍,成爲最實惠的 AI 模型之一。

然而,Llama4的發佈引發爭議。LMArena 基準測試顯示,Maverick 在 Meta 推薦的“實驗性聊天版本”下排名第二,但啓用“風格控制”後跌至第五,凸顯其依賴格式優化而非純粹內容質量。測試人員質疑 Meta 的基準可靠性,指出其與其他平臺表現差異明顯。Meta 承認優化了人類評估體驗,但否認訓練數據作弊。

QQ20250408-092427.png

長上下文任務是 Llama4的明顯弱點。Fiction.live 測試表明,Maverick 在128,000個令牌下準確率僅爲28.1%,Scout 更低至15.6%,遠遜於 Gemini2.5Pro 的90.6%。儘管 Meta 宣稱 Maverick 支持100萬令牌、Scout 支持1000萬令牌上下文窗口,但實際性能遠未達標。研究顯示,超大上下文窗口收益有限,128K 以下更實用。

Meta 生成 AI 負責人 Ahmad Al-Dahle 迴應稱,早期不一致源於實施問題,而非模型缺陷。他否認測試作弊指控,並表示部署優化正在進行,預計數日內穩定。