開源大模型生態迎來底層架構的重大突破。谷歌
此次 Gemma4最引人注目的技術創新在於引入了全新的“E2B”(參數卸載)架構。在傳統的 Transformer 架構中,龐大的嵌入層往往會佔用海量的顯存空間。而新架構巧妙地在每一層中加入了嵌入表,利用查找表機制代替了繁重的全矩陣乘法計算。以其中一款50億參數的模型爲例,在 E2B 架構的加持下,實際需要加載到 GPU 顯存中的“有效參數”僅爲20億,其餘30億參數可以安全地卸載到 CPU 甚至磁盤中。這意味着該模型僅需2GB 顯存便能實現極速推理,徹底突破了移動端、智能手機和樹莓派等端側設備的部署瓶頸。
作爲一次極具雄心的複雜發佈,
在多模態與核心體驗層面,Gemma4承襲了與 Gemini3相同的研究成果。即使是2B 或4B 規模的端側小模型,也已具備出色的多語言(支持140種語言)和多模態理解力,能夠輕鬆駕馭語音識別、語音提問以及30到60秒的短視頻分析。儘管目前該模型在知識儲備的絕對體量上與大模型仍有差距,且在文本擴散(Diffusion Transformer)等前沿實驗性探索和專家混合模型(MoE)的微調上仍面臨行業公認的挑戰,但其展現出的高密度智能已不容小覷。
隨着大模型開箱即用能力的增強,垂直領域的開發生態正經歷深刻的重構,純粹的傳統微調熱度正在逐步退燒。面向未來,
