Meta的科學家Thomas Scialom在播客節目Latent Space中,爲我們揭開了Llama3.1的研發祕籍,並提前透露了Llama4的神祕面紗。

Llama3.1的誕生,是參數規模、訓練時間與硬件限制的完美平衡。405B的龐大身軀,不是隨意的選擇,而是Meta向GPT-4o發起的挑戰書。儘管硬件的限制讓Llama3.1無法在每個家庭的電腦上起舞,但開源社區的力量讓一切變得可能。

在Llama3.1的研發過程中,Scialom和他的團隊重新審視了Scaling Law。他們發現,模型規模的確是關鍵,但更重要的是訓練數據的總量。Llama3.1選擇了增加訓練的token數,哪怕這意味着要付出更多的算力。

image.png

Llama3.1在架構上並沒有翻天覆地的變化,但在數據的規模和質量上,Meta下足了功夫。15T的token海洋,讓Llama3.1在知識的深度與廣度上都有了質的飛躍。

在數據的選擇上,Scialom堅信公開互聯網上的文本垃圾太多,真正的金子是合成數據。Llama3.1的後訓練過程中,完全沒有使用人工書寫的答案,而是完全依賴於Llama2生成的合成數據。

模型評估一直是AI領域的難題。Llama3.1在評估與改進上,嘗試了多種方法,包括獎勵模型和多樣化的基準測試。但真正的挑戰在於,如何找到能夠擊潰強大模型的合適prompt。

Meta已經在6月開啓了Llama4的訓練,而這一次,他們將重點放在了agent技術上。Toolformer等agent工具的開發,預示着Meta在AI領域的新探索。

Llama3.1的開源,不僅是Meta的一次大膽嘗試,更是對AI未來的一次深刻思考。隨着Llama4的啓動,我們有理由相信,Meta將在AI的道路上,繼續領跑。讓我們一起期待,Llama4和agent技術將如何重新定義AI的未來。