最近,Meta AI 推出了全新的量化 Llama3.2模型,包含1B 和3B 兩個版本,這款模型可以在多種設備上進行微調、蒸餾和部署。

image.png

過去,雖然像 Llama3這樣的模型在自然語言理解和生成方面取得了顯著成就,但其龐大的體量和高計算需求使得很多組織難以使用。訓練時間長、能源消耗高以及對昂貴硬件的依賴,無疑加大了科技巨頭與小型企業之間的鴻溝。

Llama3.2的特點之一就是支持多語言文本和圖像處理。1B 和3B 模型經過量化處理,平均可以縮小56% 的體積,並且在內存使用上減少了41%,並實現2-3倍的速度提升,非常適合在移動設備和邊緣計算環境中運行。

具體來說,這些模型採用了8位和4位的量化策略,將原本32位浮點數的權重和激活精度降低,從而大幅降低了內存需求和計算能力要求。這意味着量化後的 Llama3.2模型可以在普通的消費級 GPU 甚至 CPU 上運行,而且在性能上幾乎沒有損失。

可以想象,用戶現在可以在手機上進行各種智能應用,比如實時總結討論內容或者調用日曆工具,這些都得益於這些輕量級模型。

image.png

Meta AI 還與高通和聯發科技等行業領先的合作伙伴合作,將這些模型部署到基於 Arm CPU 的系統單芯片上,確保能夠在廣泛的設備上高效使用。早期測試表明,量化 Llama3.2在主要的自然語言處理基準測試中達到了 Llama3模型效果的95%,而內存使用量減少了近60%。這對於希望在不投入高昂基礎設施的前提下實現人工智能的企業和研究者來說,意義重大。

Meta AI 推出的量化 Llama3.2模型,不僅爲提升人工智能技術的可及性邁出了重要一步,還解決了當前大規模語言模型應用中的一些核心問題,比如成本和環境影響。這種高效的模型發展趨勢,必將在未來推動人工智能的可持續和包容性發展。

模型入口:https://www.llama.com/

劃重點:

🌟 Meta AI 發佈的量化 Llama3.2模型包含1B 和3B 版本,顯著降低模型體積和計算資源需求。

⚡️ 模型推理速度提升2-4倍,適用於普通消費級硬件,適合實時應用。

🌍 量化 Llama3.2在自然語言處理性能上幾乎與原版相當,助力企業和研究者實現 AI 應用。