Meta AI的研究員Thomas Scialom最近在一次採訪中分享了一些關於他們最新項目Llama3的見解。他直言不諱地指出,網絡上的大量文本質量參差不齊,他認爲在這些數據上進行訓練是一種資源浪費。因此,Llama3的訓練過程中並沒有依賴任何人類編寫的答案,而是完全基於Llama2生成的合成數據。

image.png

在討論Llama3的訓練細節時,Scialom詳細介紹了合成數據在不同領域的應用。例如,在代碼生成方面,他們採用了三種不同的方法來生成合成數據,包括代碼執行的反饋、編程語言的翻譯以及文檔的反向翻譯。在數學推理方面,他們借鑑了“讓我們逐步驗證”的研究方法來進行數據生成。此外,Llama3還通過90%的多語言令牌繼續預訓練,以收集高質量的人類註釋,這在多語言處理上顯得尤爲重要。

長文本處理也是Llama3的一個重點,他們依賴合成數據來處理長文本的問答、長文檔摘要和代碼庫推理。工具使用方面,Llama3在Brave搜索、Wolfram Alpha和Python解釋器上進行了訓練,以實現單次、嵌套、並行和多輪函數調用。

Scialom還提到了強化學習與人類反饋(RLHF)在Llama3訓練中的重要性。他們廣泛利用人類偏好數據來訓練模型,並強調了人類在做出選擇(比如在兩首詩中選擇更喜歡的一首)方面的能力,而不是從零開始創作。

Meta已經在6月份開始了Llama4的訓練,Scialom透露,Llama4的一個主要焦點將是圍繞智能體展開。此外,他還提到了多模態版本的Llama,這個版本將擁有更多的參數,並計劃在不久的將來發布。

Scialom的訪談揭示了Meta AI在人工智能領域的最新進展和未來的發展方向,特別是在如何利用合成數據和人類反饋來提升模型性能方面。