オープンソースモデル分野に「大発表」をした数週間後、グーグルはさらに最強のオープンソースモデルGemma4に強力な「ブースター」を追加しました。現地時間5月5日、グーグルはGemma4シリーズモデル向けのマルチトークン予測(MTP)プロセッサを正式に公開しました。この技術的突破は推定デコードアーキテクチャを活用し、出力の質や論理能力を損なうことなく、モデルの推論速度を最大3倍まで向上させました。

現在、世界で最も注目されているオープンソースモデルの一つであるGemma4は、リリース後わずかな期間でダウンロード数が6000万回を超えました。今回のアップデートの核心的な目的は、実際のアプリケーションにおいて長年存在していた推論のボトルネックを解決することであり、計算リソースの効率をさらに引き出すことです。

技術解説:どうして「予知」できる推論加速が可能になったのか?

従来の言語モデルの推論は、GPUメモリバンド幅によって制限されていました。簡単に言うと、プロセッサがテキストを生成する際には、何十億ものパラメータをGPUメモリから計算ユニットへ移動させるために多くの時間がかかるのです。この「移動」の速度は計算速度よりもはるかに遅く、ハードウェアリソースが大部分の時間無駄になっているため、返答の遅延が生じてしまいます。

この課題を克服するために、グーグルは推定デコード技術を導入しました。その仕組みは、「メイン・スレーブ方式」と理解できます。システムはGemma 4 31Bなどの大型ターゲットモデルと軽量なMTPプロセッサをペアにします。プロセッサは空いた演算能力を使って、今後出現する可能性のある複数のトークン(文字)を事前に予測します。その後、性能の高いメインモデルが並列的に検証を行います。予測が一致すれば、モデルは一度の計算で全体のシーケンスを直接確認でき、結果としてテキスト生成の時間を大幅に短縮することができます。

実測結果:Apple Siliconとコンシューマー級GPUで顕著な効果

公式に公表されたテストデータによると、この加速効果はローカルデバイス上で特に目立ちます。Apple Siliconチップの環境では、バッチサイズが4〜8の間で設定された場合、Gemma 4 26Bモデルのローカルでの実行速度が約2.2倍向上しています。

これは開発者にとって、個人用PCや一般的なコンシューマー級GPUでも、複雑なオフラインプログラミングアシスタントやスマートエージェントワークフローをよりスムーズに動作させることができるということです。また、推論効率が向上することで、エッジデバイスの消費電力も大きく低下し、モバイルAIアプリケーションの普及への障壁が取り除かれました。

AIの応用範囲がさらに広がる

今回の技術アップデートは、極めて低い遅延が必要な場面、例えばリアルタイムチャットボット、自動化プログラミングツール、およびさまざまな自律型エージェントに焦点を当てています。グーグルはMTPプロセッサを通じて、リソースが制限されたハードウェア環境でも、開発者が最新の言語モデルを展開できることが証明されました。そして、応答速度と計算精度のどちらかを選ばなければならないという選択は必要ありません。

推論コストとハードルがさらに低下していく中、Gemma4およびその補完技術の進化は、AIをクラウドからより広範な個人端末にまで広げています。