最新の独立評価によると、Metaが最近発表したLlama4モデル、MaverickとScoutは標準的なテストでは優れた成績を収めたものの、複雑な長文コンテキストタスクではパフォーマンスが劣っていました。AI分析による「インテリジェンス指数」では、Maverickは49点を獲得し、Claude3.7Sonnet(具体的な得点は記載なし)を上回りましたが、Deepseek V30324(53点)には及ばず;Scoutは36点を獲得し、GPT-4o-miniと同等で、Claude3.5SonnetやMistral Small3.1を上回りました。両モデルとも、推論、コーディング、数学のタスクでは安定したパフォーマンスを示し、顕著な弱点は見られませんでした。
Maverickのアーキテクチャ効率は注目に値します。Deepseek V3の170億個(対370億個)に対し、活性化パラメータはわずかであり、総パラメータは60%(4020億個対6710億個)です。さらに、テキストだけでなく画像も処理できます。価格面では、Maverickの100万トークンあたりの入力/出力平均価格は0.24ドル/0.77ドル、Scoutは0.15ドル/0.4ドルで、Deepseek V3よりも安く、GPT-4oよりも10倍も安いことから、最も手頃なAIモデルの一つとなっています。
しかし、Llama4の発表は論争を巻き起こしました。LMArenaベンチマークテストによると、MaverickはMetaが推奨する「実験的なチャットバージョン」では2位にランクインしましたが、「スタイル制御」を有効にすると5位に低下し、純粋なコンテンツの質ではなくフォーマットの最適化に依存していることを示しています。テスト担当者はMetaのベンチマークの信頼性に疑問を呈し、他のプラットフォームでのパフォーマンスとの違いを指摘しました。Metaは、人間の評価体験を最適化したことを認めましたが、トレーニングデータの不正行為を否定しています。
長文コンテキストタスクはLlama4の明白な弱点です。Fiction.liveテストによると、Maverickは128,000トークンでの正確率がわずか28.1%、Scoutはさらに低い15.6%であり、Gemini2.5Proの90.6%を大きく下回っています。MetaはMaverickが100万トークン、Scoutが1000万トークンのコンテキストウィンドウをサポートすると主張していますが、実際の性能ははるかに及ばないことが示されています。研究によると、超大規模なコンテキストウィンドウの利点は限定的で、128K以下の方が実用的です。
Metaの生成AI責任者であるAhmad Al-Dahle氏は、初期の矛盾はモデルの欠陥ではなく、実装上の問題によるものであると回答しました。彼はテストにおける不正行為の申し立てを否定し、展開の最適化が進行中で、数日以内に安定すると述べています。