在開源模型領域投下“重磅炸彈”僅數週後,谷歌再次爲其最強開源模型Gemma4 注入了強效“助推劑”。當地時間 5 月 5 日,谷歌正式發佈了針對Gemma4 系列模型的多Token預測(MTP)起草器。這一技術突破利用推測解碼架構,在不犧牲輸出質量和邏輯能力的前提下,將模型的推理速度最高提升了 3 倍。

作爲目前全球最受關注的開源模型之一,Gemma4 在發佈後的短時間內下載量便已突破 6000 萬次。而此次更新的核心目標,正是爲了解決大語言模型在實際應用中長期存在的推理瓶頸,進一步壓榨計算資源的效能。

技術拆解:如何實現“未卜先知”的推理加速?

傳統的語言模型推理往往受限於顯存帶寬。簡單來說,處理器在生成文本時,需要耗費大量時間將數百億個參數從顯存搬運到計算單元,這種“搬運”速度遠低於計算速度,導致硬件資源在大部分時間處於閒置狀態,進而產生明顯的回覆延遲。

爲了攻克這一痛點,谷歌引入了推測解碼技術。其工作原理可以理解爲一種“主從配合”模式:系統會將Gemma 4 31B等重型目標模型與輕量級的MTP起草器配對。起草器會利用閒置算力提前預測未來可能出現的多個Token(字符),隨後由性能更強的主模型進行並行驗證。一旦預測匹配,模型就能在單次計算中直接確認整個序列,從而大幅縮短了文本生成的時間。

實測表現:Apple Silicon與消費級顯卡受益顯著

根據官方公佈的測試數據,這種加速效果在本地設備上表現尤爲亮眼。在Apple Silicon芯片環境下,當batch sizes設定在 4 至 8 之間時,Gemma 4 26B模型的本地運行速度提升了約2. 2 倍。

這意味着,開發者現在可以在個人電腦或普通的消費級顯卡上,更流暢地運行復雜的離線編程助手或智能體工作流。此外,由於推理效率的提升,邊緣設備的能耗也隨之顯著降低,爲移動端AI應用的普及掃清了障礙。

AI應用的邊界再次拓展

此次技術更新主要針對低延遲需求極高的場景,如即時聊天機器人、自動化編程工具以及各類自主智能體。谷歌通過MTP起草器證明,即便在資源受限的硬件環境下,開發者依然能夠部署最先進的語言模型,且無需在響應速度和計算精度之間做“二選一”。

隨着推理成本和門檻的進一步降低,Gemma4 及其配套技術的演進,正將AI從雲端推向更廣泛的個人計算終端。