8月12日、華為は「2025金融AI推論応用の実装と発展フォーラム」で画期的なAI推論技術UCM(推論メモリデータマネージャー)を発表する予定です。この技術は中国のAI推論がHBM(高帯域幅メモリ)に依存することを減少させ、国内の大規模モデルの推論性能を著しく向上させることが期待されています。
UCMはKVキャッシュを核として、多様なキャッシュ加速アルゴリズムツールを統合し、推論中に生成されるメモリデータを階層的に管理することで、文脈ウィンドウを拡大し、高スループットで低遅延の推論体験を実現し、トークンあたりの推論コストを削減します。このソリューションにより、HBMリソースの不足によって引き起こされるタスクの遅滞や応答遅延の問題が緩和されます。
今回のフォーラムでは、華為が中国銀聯とともにAI推論の最新応用成果を発表する予定です。信通院、清華大学、科大訊飛などの機関の専門家も大規模モデルの推論加速と体験最適化に関する実践を共有します。華為データストレージ製品ラインの副社長樊傑は、「今後のAIの突破は高品質な業界データの解放に大きく依存するだろう。高性能なAIストレージは、データロード時間を数時間から数分に短縮し、計算集約の効率を30%から60%にまで向上させる」と述べています。
業界の分析によると、UCMの登場はAI産業が「モデル能力の限界を目指す」段階から「推論体験の最適化を目指す」重要な転換点に位置づけられているタイミングであり、推論体験はAIの商業価値を測る重要な指標となっています。长城証券は、大規模モデルの能力が継続的に向上し、商業的なシナリオが広がる中で、計算力および産業チェーン企業が新たな発展機会を迎えると指摘しています。