大規模言語モデル(LLM)の推論性能のボトルネックが、新しい技術によって打ち破られています。最近、Moonshot AI(月之暗面)と清华大学の研究チームは、**プリフィル即サービス(PrfaaS)**という新しいアーキテクチャを共同で提案しました。この研究は、計算リソースの配分を最適化することで、データセンターでの大規模モデルサービスにおけるハードウェアの制限を解決し、推論効率を大幅に向上させることを目的としています。

技術的突破:プリフィルとデコードの「手術刀式」の分離
現在、大規模言語モデルの推論プロセスは主に2つの異なる段階に分けられます:
プリフィル段階(Prefill): 計算集約型で、入力を処理し、キーバッファーキャッシュ(KVCache)を生成します。
デコード段階(Decode): メモリ帯域幅集約型で、1文字ずつ出力を生成します。
従来のサービスアーキテクチャでは、これらの2つの段階が同じデータセンターやたとえば1台のサーバー内で処理されることが一般的でした。しかし、これらはハードウェアリソースの要件が大きく異なるため、「強引な統合」により、計算リソースと帯域幅の配分が失衡し、結果としてサービスの混雑が発生していました。
コアイノベーション:地域間の効率的な協調
この設計により、物理的な空間の制約が打破され、プリフィルとデコードが異なるデータセンターで同時に実行できるようになりました。効率的な送信を確保するために、PrfaaSは二つのタイムスケールスケジューリングメカニズムを導入しています。このメカニズムはリアルタイムのトラフィック変動に基づいてリソースを柔軟に割り当てることができ、正確なルーティング機構と併せて、長文のリクエストがリソースの不均衡により遅延しないようにします。
実測結果:スループットとレイテンシーの両方の最適化
研究のデータによると、PrfaaSアーキテクチャは実際に驚くべきパフォーマンスを示しています:
サービススループットが54%向上し、単位時間あたりのリクエスト処理能力が大幅に向上しました。
応答レイテンシーが顕著に低下し、ユーザー側で最初の文字の生成が速くなりました。
リソース利用率が最大化され、計算、ネットワーク、ストレージサブシステムを分離することで、従来のアーキテクチャの混雑問題を回避しました。
今回のMoonshot AIと清华大学の協力は、大規模AI推論において新たなエンジニアリングのアイデアを提供するだけでなく、今後の地域間のコンピューティングネットワーク構築の技術的基盤を築きました。このような「プリフィル即サービス」のモデルは、大規模モデルが産業化への重要な分岐点となるかもしれません。
