在 Meta 正在進行的人工智能版權案件之一 Kadrey v. Meta 中,法院公佈的內部消息揭示了該公司在開發 Llama3 時的激烈競爭和潛在版權問題。Meta的高層領導和研究人員全力以赴,力圖在AI模型開發中超越 OpenAIAnthropic 等公司,並將其 GPT-4Claude 視爲努力的黃金標準。

激烈的競爭心態:Meta誓言打敗OpenAI

據Meta生成AI副總裁 Ahmad Al-Dahle 透露,該公司在開發 Llama3 時的目標明確指向 GPT-4,並決心通過高效的硬件支持,如64k GPU,在AI競爭中佔得先機。Al-Dahle在一條內部信息中寫道:“我們將推出64k GPU!我們需要學習如何建立前沿並贏得這場比賽。”

然而,儘管Meta發佈了開放源代碼的AI模型,Meta的高管們更專注於打敗那些通常不會公開其模型權重的競爭對手,如 OpenAI 和 Anthropic,而是將它們的模型置於API之下,形成了強烈的競爭焦點。

Facebook 元宇宙 meta

對Mistral的輕視與內部焦慮

法國人工智能初創公司 Mistral 是Meta的最大公開競爭對手之一,但Meta高層對其顯然不屑一顧。在一條信息中,Al-Dahle稱:“米斯特拉爾對我們來說微不足道,我們應該能夠做得更好。” 這也暴露了Meta內部對AI競爭的極度焦慮,以及他們在行業中的強烈企圖心。

同時,Meta的AI領導們在內部交流中頻繁談到他們如何積極獲取數據以訓練 Llama3,且某些信息表明,高管們對於 Llama3 充滿期待,一位高管甚至在信息中提到:“Llama3纔是我真正關心的一切。”

版權問題與法律挑戰

隨着Meta在開發Llama3的過程中遭遇的激烈競爭,其使用的訓練數據也開始引發法律爭議。檢察官指控,Meta的高管在激烈追趕AI開發進度時,可能偷工減料並使用了受版權保護的書籍作爲訓練數據。

在一條信息中,研究員 Hugo Touvron 透露,Meta曾在 Llama2 訓練中使用的數據集組合“很糟糕”,並提出通過改進數據集來優化 Llama3。他們還討論了掃清使用 LibGen 數據集的障礙,這個數據集包含了如 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的版權作品。

儘管存在版權問題,Meta CEO 馬克·扎克伯格 強調,Meta將繼續推動 Llama 模型的進步,並縮小與其他封閉模型如 OpenAI 和 Google 之間的差距。

Meta的未來展望與Llama3的市場地位

2024年7月,扎克伯格表示, Llama3 在性能上已與最先進的AI模型相媲美,並在某些領域處於領先地位。他預計,從2025年起,Meta的 Llama 系列將成爲業內最先進的AI模型。然而,Llama3 的發佈仍需應對不斷加劇的版權訴訟,特別是它的訓練數據引發的法律審查。