谷歌推出全新 Gemma 4 12B 模型：輕鬆處理視覺與音頻，無需編碼器

近日，谷歌正式發佈了其最新的統一多模態模型 ——Gemma 4 12B。這款模型具有 12 億個參數，最大的亮點在於它不需要傳統的多模態編碼器，能夠直接處理視覺和音頻數據。爲了適應消費級硬件的使用需求，Gemma 4 12B 僅需 16GB 的顯存或統一內存，用戶可以在高端筆記本電腦上本地運行，而不必依賴於雲端計算資源。

Gemma 4 12B 的設計創新在於取消了傳統多模態模型中的編碼器組件。以往的多模態模型需要將圖像和聲音通過獨立的視覺和音頻編碼器進行轉換，而 Gemma 4 12B 採用了一種輕量級的嵌入層，簡化了視覺輸入的處理。它僅需進行一次矩陣乘法、位置嵌入和歸一化操作，顯著降低了計算複雜度。與此同時，音頻信號則被直接投影到文本 token 的維度空間，省去了音頻編碼器的需求。這種無編碼器的設計使得 Gemma 4 12B 在推理時的計算步驟減少，體積更爲精簡。

在性能表現方面，Gemma 4 12B 接近谷歌更大 26B MoE 模型的水平，在多項基準測試中展現出了卓越的多步推理能力和代理工作流能力。此外，該模型還配備了 Multi-Token Prediction（MTP）drafters，能同時預測多個 token，從而加快推理速度。截至目前，Gemma 4 系列的累計下載量已經突破了 1.5 億次，顯示出開發者社區對該開源模型的熱烈反響。

Gemma 4 12B 採用 Apache 2.0 許可證進行開源，權重文件已在 Hugging Face 和 Kaggle 等平臺上線，支持多種推理框架，包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。此外，谷歌自家的 AI Edge Gallery 也爲端側部署提供了支持，開發者可以通過 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服務進行大規模的生產環境部署。

劃重點：
🌟 Gemma 4 12B 模型無需傳統編碼器，可直接處理視覺與音頻數據，運行需求低。
⚡ 採用輕量級嵌入層，顯著降低計算複雜度，性能接近谷歌更大的 26B MoE 模型。
📈 累計下載量突破 1.5 億次，支持多種推理框架及端側部署，廣受開發者歡迎。

谷歌推出全新 Gemma 4 12B 模型：輕鬆處理視覺與音頻，無需編碼器

相關推薦

Poolside 重磅開源！Laguna S 2.1 免費上線 OpenCode，1M 超長上下文 +118B MoE 模型引領代理編碼新紀元

OpenRouter推出全新技術：多輪 Agent 調用成本最高可砍到 1.75 倍

顛覆傳統模式！美國將改革 2000 億美元科研預算，重心轉向個體與AI

Gemini 3.6 Flash來了，但網友笑得更大聲：省下了token，卻沒保住智商

AI演習變實戰？OpenAI新模型意外“入侵”知名開源平臺