在近日的社交媒體上,Meta 公司的高層對關於其新 AI 模型 Llama4的 “不當訓練” 指控進行了澄清,稱這些說法完全不屬實。指控聲稱 Meta 在其新推出的 Llama4Maverick 和 Llama4Scout 模型上,通過在特定基準測試的 “測試集” 上進行訓練,以此來人爲提高模型的性能表現。

Meta 的生成式人工智能副總裁艾哈邁德・阿爾・達赫勒(Ahmad Al-Dahle)在社交平臺 X 上作出迴應,明確表示這類說法毫無根據。他指出,測試集是用於評估模型性能的數據集,若在此數據集上進行訓練,確實會導致模型的表現看起來遠優於實際能力,這種行爲在業界被視爲不正當競爭。

LLM 羊駝 數學大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

不過,值得注意的是,Llama4Maverick 和 Llama4Scout 在某些任務上的確表現不如預期,Meta 也承認其選擇在基準測試平臺 LM Arena 上使用未發佈的實驗版本 Maverick 來獲得更高的成績,這無疑爲上述謠言提供了部分 “證據”。研究人員已經發現,公衆可下載的 Maverick 與在 LM Arena 上託管的版本在行爲上存在顯著差異。

阿爾・達赫勒還表示,一些用戶在使用不同雲服務商提供的 Llama4模型時,確實遇到了質量參差不齊的情況。他解釋說:“由於我們在模型準備好後就迅速發佈,因此預計需要幾天的時間來調整所有公開的版本。我們將繼續進行錯誤修復,並與合作伙伴保持溝通。”

Meta 此次澄清表明,該公司在 AI 領域的倫理標準仍然值得信賴,同時也提醒大家,任何 AI 模型的表現都可能因版本差異而有所不同。