昨晚,Meta公司宣佈開源其最新大語言模型Llama3.1 405B。這一重磅消息標誌着經過一年的精心籌備,從項目規劃到最終審覈,Llama3系列模型終於與公衆見面。
Llama3.1405B是一個具有1280億參數的多語言工具使用模型。該模型在8K上下文長度預訓練後,進一步通過128K上下文長度持續訓練而成。根據Meta的說法,這個模型在多項任務中的表現可與業界領先的GPT-4相媲美。
相較於先前的Llama模型,Meta在多個方面進行了優化:
- 改進了預訓練數據的預處理和策劃流程
- 提升了訓練後數據的質量保證和篩選方法
405B模型的預訓練是一項巨大挑戰,涉及15.6萬億個標記和3.8x10^25次浮點運算。爲此,Meta優化了整個訓練架構,並調用了超過16,000塊H100GPU。
爲支持405B模型的大規模生產推理,Meta將其從16位(BF16)量化至8位(FP8),顯著降低了計算需求,使單個服務器節點也能運行該模型。
此外,Meta利用405B模型提升了70B和8B模型的訓練後質量。在訓練後階段,團隊通過多輪對齊過程完善了聊天模型,包括監督式微調(SFT)、拒絕採樣和直接偏好優化。值得注意的是,大部分SFT樣本都是使用合成數據生成的。
Llama3還整合了圖像、視頻和語音功能,採用組合方法使模型能夠識別圖像和視頻,並支持語音交互。不過,這些功能仍在開發中,尚未正式發佈。
Meta還更新了許可協議,允許開發者使用Llama模型的輸出來改進其他模型。
Meta的研究人員表示:"能與業內頂尖人才一起在AI前沿工作,並公開透明地發佈研究成果,是無比令人振奮的。我們期待看到開源模型帶來的創新,以及未來Llama系列模型的潛力!"
這一開源舉措無疑將爲AI領域帶來新的機遇和挑戰,推動大語言模型技術的進一步發展。