3月26日、グーグル研究チーム(Google Research)は新しいベクトル量子化圧縮アルゴリズム「TurboQuant」を正式に公開しました。PolarQuantとQJLという革新技術により、大規模言語モデル(LLM)の推論プロセスにおけるキーバッファ(KV Cache)のメモリ要件を少なくとも6倍減少させ、Nvidia H100 GPUでのアテンション計算速度を最大8倍向上させ、複数の長文基準テストにおいて精度損失なしで実現しています。この画期的な進展はAIの導入コストを大幅に低下させ、長文応用の実装を加速するものと考えられます。
KV Cacheの課題:高次元ベクトルのメモリ消費が大きい
LLMは長文を取り扱う際、キー(Key)と値(Value)のベクトルからなるバッファを維持する必要があります。これらの高次元ベクトルは、注意機構の計算を高速化し、繰り返しの計算を避けるために使用されます。しかし、文脈の長さが増すにつれて、KV Cacheのメモリ消費は爆発的に増加し、モデルの推論効率と展開規模の主要なボトルネックとなっています。

従来のベクトル量子化方法はデータを圧縮できますが、量子化定数(例えばスケーリング係数やゼロ点など)を別途保存する必要があり、これらは通常フル精度で保存されるため、各数値ごとに1~2ビットの追加オーバーヘッドをもたらします。これは圧縮効果を一部相殺しています。
TurboQuantの核心的革新:PolarQuant + QJLの2段階圧縮
TurboQuantはトレーニングなしの2段階圧縮フレームワークを採用しており、従来の量子化のオーバーヘッド問題を巧みに解決しています:
PolarQuant(極座標角度圧縮):
まずベクトルをランダムに回転し、その後、デカルト座標(X/Y/Zなど)を極座標形式(角度+半径)に変換します。角度が固定された予測可能な範囲に分布しているため、従来の量子化では必要な境界正規化の保存オーバーヘッドが省かれ、より効率的な圧縮が可能です。
QJL(1ビットエラー修正、Quantized Johnson-Lindenstrauss):
PolarQuantによる圧縮後にも残差誤差が存在します。QJLはJohnson-Lindenstrauss変換によって次元を低減し、極めて簡易な1ビット(+1/-1の符号)で量子化します。特別なバイアスのない推定器を使用して、注意スコアの計算時に追加のメモリオーバーヘッドなしで誤差補正を行います。これにより、全体的なプロセスでシステムバイアスが生じません。
両者を組み合わせることで、TurboQuantはKV Cacheを約3ビットレベルまで圧縮でき、内積推定のバイアスのない正確性を保ちます。
ベンチマーク結果:全面的優位、長文への完璧な適合
グーグルチームはGemma、Mistralなどのオープンソースモデル上で広範な検証を行いました:
- LongBench(長文質問応答、コード生成、要約など)、TurboQuantは現在のKIVIなどのベースラインと同等または上回り、全体的に優位です。
- Needle In A Haystackなどの検索タスク:完全な下流スコアを達成し、KVメモリを少なくとも6倍圧縮。
- Nvidia H100実測:4ビット設定下で、アテンションログイット計算速度は最大8倍向上。
また、GloVeなどのベクトルデータセットにおいても、TurboQuantのリコール率はPQ、RabbiQなどの従来手法を上回っています。
AIbaseコメント:TurboQuantはモデルの再訓練や微調整なしに、既存のLLMに直接適用可能であり、ベクトル量子化に依存するすべてのシナリオに適しています。これは、データベース検索、レコメンダーシステム、ベクトルエンジンなどに適用可能です。これにより、単一のコンシューマー向けGPUでもより長い文脈(数十万トークン)をサポートできるようになり、企業向けAIサービスのハードウェア要件を顕著に下げることができます。
業界への影響:AI推論効率の新基準
長文やマルチモーダルアプリケーションが爆発的に増えている今、KV CacheのメモリはAIインフラストラクチャの中心的な制限要因となっています。TurboQuantの「近似最適、データ非依存」の量子化フレームワークは、効率的な推論の新たな道を開きました。グーグル研究チームは、この技術はICLR2026などの会議に関連する論文で詳細に説明されており、関連するコードと実装詳細は徐々にオープンソース化される見込みです。
