AIモデルの価格競争が高まり続ける中、小米(チャイナ・モバイル)傘下にあるMiMo大規模モデルは5月27日に正式に発表し、MiMo-V2.5シリーズのAPIを永久的に値下げするとともに、料金体系を同時に最適化し、技術の恩恵により開発者の呼び出しコストをさらに低下させる狙いである。

一、API価格大幅引き下げ、最大99%の減額
今回の価格変更は北京時間の5月27日午前0時からグローバルで即座に適用される。この調整は、MiMo-V2.5およびMiMo-V2.5Proの2つの主要バージョンに含まれており、上下文の窓口長さを区別しないという方針で、価格戦略はより単純かつ透明性が高い方向に進んでいる。
| モデルバージョン | 入力キャッシュヒット価格 | 最大減額率 | 出力価格 | 最大減額率 |
| MiMo-V2.5Pro | 0.025元/百万トークン | 99% | 6元/百万トークン | 86% |
| MiMo-V2.5 | 0.02元/百万トークン | 98% | 2元/百万トークン | 93% |
二、料金体系のアップグレード:量を増やして価格は据え置き
API単価の直接的な引き下げに加えて、小米はToken Plan料金体系を深く最適化した:
枠が倍増: 元の価格基準を維持しつつ、実際のトークン使用枠は従来の5~8倍に拡大された。
ルールが簡略化: Credits(ポイント)の概念を導入し、以前の複雑な料金体系を代替する。これにより、開発者はトークンの消費とコスト計算をより直感的で理解しやすい形で行える。

三、技術基盤:なぜ継続的な価格引き下げが可能なのか?
小米公式は今回の大幅な価格引き下げの裏には、推論システムの基本構造における技術革新があると明らかにした。
SWA推論最適化: SGLang HiCacheを完全にサポートし、SWA(スライディングウィンドウアテンションメカニズム)が可能となり、KVキャッシュのGPUメモリ、CPUメモリ、SSD間でのデータ転送量がもとの1/7にまで減少した。
キャッシュ効率の向上: キャッシュ可能なトークン数が最適化前の約5倍に急増し、キャッシュヒット率が著しく向上し、単位推論コストを大幅に削減した。
クラスタスループット最適化: 専門家並列(MoE)の仕組みと入力長度バケット戦略を取り入れることで、クラスタの入力処理能力が質的に向上し、サービス品質を高い水準に保ちながら、単位トークンあたりのサービスコストを継続的に圧縮した。
