大規模言語モデル(LLM)が推論プロセスにおいて計算リソースの需要が増すにつれて、従来のサービスアーキテクチャはボトルネックに直面しています。Moonshot AI と清华大学の研究チームは最近、データセンターおよびコンピューティングリソースの制限を打破するための新しいアーキテクチャ「プリフィル・アズ・サービス(PrfaaS)」を発表しました。

現在、大規模言語モデルの推論プロセスは通常、プリフィルとデコードの2つのステージに分かれています。プリフィルステージはモデルが入力を処理し、キーバッファーキャッシュ(KVCache)を生成する高計算集約的なプロセスであり、デコードステージはモデルが順番に出力を生成するメモリバンド幅集約的なプロセスです。従来のアーキテクチャでは、この2つのステージを同じデータセンター内で行う必要があり、これにより計算とバンド幅の制限が生じます。
PrfaaS は、プリフィルタスクを専用の高性能計算クラスタにオフロードし、生成された KVCache を一般的なイーサネットを通じてローカルなデコードクラスタに送信することで、データセンター間での効率的なサービスを実現しています。研究によると、このアーキテクチャは処理性能で顕著な向上を示しており、従来のモデルと比較してサービススループットが54%向上しています。実際のケーススタディでは、このアーキテクチャは低い遅延と高い効率を示しています。
PrfaaS アーキテクチャの設計は、計算、ネットワーク、ストレージの3つのサブシステムを別々に管理し、正確なルーティングメカニズムによって長時間のリクエストを効率的に転送し、従来の方法でリソース配分の不均衡によって引き起こされる混雑問題を回避しています。また、このシステムは異なるトラフィックパターンの変化に対応するための二段階スケジューリングメカニズムを導入しており、さらにリソースの利用を最適化しています。
データセンター間の推論の需要が増加し、新しいハードウェアが次々と登場する中、PrfaaS は将来的なAIアプリケーションに対する新たなソリューションを提供するでしょう。
