Moonshot AIと清华大学がPrfaaSアーキテクチャを発表大規模モデルの計算力の限界を突破

大規模言語モデル（LLM）の推論性能のボトルネックが、新しい技術によって打ち破られています。最近、Moonshot AI（月之暗面）と清华大学の研究チームは、**プリフィル即サービス（PrfaaS）**という新しいアーキテクチャを共同で提案しました。この研究は、計算リソースの配分を最適化することで、データセンターでの大規模モデルサービスにおけるハードウェアの制限を解決し、推論効率を大幅に向上させることを目的としています。

技術的突破：プリフィルとデコードの「手術刀式」の分離

現在、大規模言語モデルの推論プロセスは主に2つの異なる段階に分けられます：

プリフィル段階（Prefill）: 計算集約型で、入力を処理し、キーバッファーキャッシュ（KVCache）を生成します。
デコード段階（Decode）: メモリ帯域幅集約型で、1文字ずつ出力を生成します。

従来のサービスアーキテクチャでは、これらの2つの段階が同じデータセンターやたとえば1台のサーバー内で処理されることが一般的でした。しかし、これらはハードウェアリソースの要件が大きく異なるため、「強引な統合」により、計算リソースと帯域幅の配分が失衡し、結果としてサービスの混雑が発生していました。

コアイノベーション：地域間の効率的な協調

PrfaaSアーキテクチャの大きな特徴は、非同期サービスを実現したことです。高計算集約型のプリフィルタスクを専用の高計算クラスターにオフロードします。タスクが完了すると、システムは一般的なイーサネット技術を使用して生成されたKVCacheをローカルデコードクラスターにリモート送信します。

この設計により、物理的な空間の制約が打破され、プリフィルとデコードが異なるデータセンターで同時に実行できるようになりました。効率的な送信を確保するために、PrfaaSは二つのタイムスケールスケジューリングメカニズムを導入しています。このメカニズムはリアルタイムのトラフィック変動に基づいてリソースを柔軟に割り当てることができ、正確なルーティング機構と併せて、長文のリクエストがリソースの不均衡により遅延しないようにします。

実測結果：スループットとレイテンシーの両方の最適化

研究のデータによると、PrfaaSアーキテクチャは実際に驚くべきパフォーマンスを示しています：

サービススループットが54％向上し、単位時間あたりのリクエスト処理能力が大幅に向上しました。
応答レイテンシーが顕著に低下し、ユーザー側で最初の文字の生成が速くなりました。
リソース利用率が最大化され、計算、ネットワーク、ストレージサブシステムを分離することで、従来のアーキテクチャの混雑問題を回避しました。

今回のMoonshot AIと清华大学の協力は、大規模AI推論において新たなエンジニアリングのアイデアを提供するだけでなく、今後の地域間のコンピューティングネットワーク構築の技術的基盤を築きました。このような「プリフィル即サービス」のモデルは、大規模モデルが産業化への重要な分岐点となるかもしれません。

テンセントと人民大学高嶺が共同でオープンソース計画評価フレームワークのPlanningBenchを発表

テンセントの混元チームと中国人民大学などが共同で、大規模言語モデルの計画能力を評価・訓練するフレームワーク「PlanningBench」をオープンソース化。30以上の計画タスクタイプをカバーし、データ生成と検証をサポート。タスク、制約、難易度を体系的に抽象化し、モデルの実践的な計画能力を評価することを目指す。....

GPT 5.5がAIバグチャレンジで優勝、DeepSeekがコストパフォーマンス最高を獲得

セキュリティ研究者Kasra Rahjerdiが、脆弱性を含む書籍レビューアプリを構築し、主要な大規模言語モデルのセキュリティ推論能力をテスト。Googleモバイルバックエンドサービスの認証情報を意図的に露出させ、モデルに解凍とデータベースアクセスを要求。2時間、予算10ドルの厳格な条件下でトップモデルのパフォーマンスを評価した。....

GPT-5.5が利用効率で優勝、DeepSeek V4 Proがコストパフォーマンスの王座を獲得！大規模言語モデルのサイバーセキュリティ攻防テスト結果が公開

大規模言語モデルはサイバーセキュリティ分野における推論能力に厳しいテストを受けています。セキュリティ研究者であるKasra Rahjerdi氏は、コアな脆弱性を含む図書レビューAPKを構築し、主流の大規模言語モデルを模擬ハッキングテストしました。このテストでは、各モデルがセキュリティ推論と脆弱性の利用において実際にどの程度の性能を持っているかを明らかにしています。テストは2時間の制限時間、1回あたり予算が10ドルで行われ、複雑な論理的チャレンジにおける各モデルの実際のパフォーマンスが明確に示されています。

誰が本物の牛なのか？新版のパブリッククラウド大規模モデルTokenサービスのパフォーマンスモニタリングプラットフォームが近日リリース予定

国内の大規模言語モデル導入が加速し、パブリッククラウドの基盤性能評価が業界の焦点に。6月16日、「高品質トークンサービス検討会」が開催され、新版「パブリッククラウド大規模言語モデルトークンサービス性能監視プラットフォーム」が正式稼働し、2026年6月の性能監視結果も同時公開される。....

悪意ある開発者によるClaudeの使用によるマルウェアパッケージ:670を越える汚染されたnpmパッケージがオープンソースエコシステムのセキュリティを脅かす

悪意のある開発者がAnthropicのAIモデルClaudeを利用して悪質なコードを作成し、npmリポジトリに670以上の悪意スクリプトを含むパッケージを公開。パッケージ管理エコシステムが汚染され、大規模言語モデルがマルウェア自動開発に悪用されるリスクが浮き彫りとなり、サイバーセキュリティ業界に警鐘を鳴らしている。....

Moonshot AIと清华大学がPrfaaSアーキテクチャを発表 大規模モデルの計算力の限界を突破