谷歌近期推出了 Gemma3系列的全新版本,這一消息讓衆多 AI 愛好者爲之振奮。僅在上線一個月後,谷歌便發佈了經過量化感知訓練(QAT)優化的 Gemma3,旨在顯著降低內存需求的同時,保持模型的高質量。
具體來說,經過 QAT 優化的 Gemma327B 模型,其顯存需求從54GB 大幅降低到14.1GB,意味着用戶現在可以在 NVIDIA RTX3090等消費級 GPU 上本地運行這一大型模型。通過簡單的測試,配備 RTX3070的機器也能運行 Gemma3的12B 版本,儘管其 token 輸出速度稍顯不足,但整體性能仍在可接受範圍之內。
QAT 的神奇之處在於,它在訓練過程中直接融入量化操作,與傳統的訓練完成後再進行量化的方法不同。這種方法能夠有效模擬低精度運算,從而在後續量化爲更小版本時,儘量減少性能損失。谷歌進行了約5000步的 QAT 訓練,成功將困惑度下降了54%,這讓模型在小型設備上也能保持較高的運行效果。
現在,Gemma3的不同版本都可以在各類 GPU 上運行。以 Gemma327B 爲例,只需單張 NVIDIA RTX3090(24GB VRAM)便能輕鬆實現本地運行,而 Gemma312B 則可以在 NVIDIA RTX4060等更輕便的設備上高效執行。這種模型的降維設計使得更多用戶能夠體驗到強大的 AI 功能,甚至在資源有限的系統上(如手機)也能獲得支持。
谷歌還與多個開發者工具合作,提供用戶無縫體驗的方式,如 Ollama、LM Studio 和 MLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是,許多用戶對此表示極大的興奮,紛紛表示希望谷歌進一步探索更高效的量化技術。