在 AI 模型價格戰持續升溫的背景下,小米旗下 MiMo 大模型於5月27日正式發佈公告,對其 MiMo-V2.5系列 API 實施永久性降價,並同步優化了計費體系,旨在通過技術紅利進一步降低開發者的調用成本。

1111.png

一、API 價格大幅下調,最高降幅99%

本次調價已於北京時間 5月27日0:00 全球同步生效。此次調整覆蓋 MiMo-V2.5和 MiMo-V2.5Pro 兩個核心版本,且不再區分上下文窗口長度,定價策略更趨向於極簡與透明。

模型版本輸入緩存命中價格最高降幅輸出價格最高降幅
MiMo-V2.5Pro0.025元/百萬 tokens99%6元/百萬 tokens86%
MiMo-V2.50.02元/百萬 tokens98%2元/百萬 tokens93%

二、計費體系升級:加量不加價

除了直接的 API 單價下調,小米還對 Token Plan 計費體系進行了深度優化:

  • 額度翻倍: 在保持原價格標準的前提下,Token 的實際用量額度提升至原來的 5至8倍

  • 規則簡化: 引入 Credits(積分) 概念,旨在替代此前複雜的計費方式,使開發者對 Token 的消耗與成本計算更直觀、易懂。

222.jpg

三、技術底座:爲何能持續降價?

小米官方透露,此次大幅降價的底氣源於其在推理系統底層架構上的技術突破:

  1. SWA 推理優化: 基於 SGLang HiCache 完整支持 SWA(滑動窗口注意力機制),使得 KV Cache 在 GPU 顯存、CPU 內存及 SSD 之間的多級搬運數據量減少至原來的1/7。

  2. 緩存效率提升: 可緩存 Token 數量激增至優化前的近5倍,顯著提升了緩存命中率,大幅攤薄了單位推理成本。

  3. 集羣吞吐優化: 通過引入專家並行(MoE)方案與輸入長度分桶策略,集羣的輸入吞吐能力得到質的提升,確保在服務質量保持高水準的同時,持續壓低單位 Token 的服務成本。

小米此舉被業內視爲對當前大模型商業化“內卷”的積極迴應。隨着價格門檻的進一步降低,MiMo 系列模型的性價比優勢將進一步顯現,加速 AI 能力在各垂直行業及開發者工作流中的深度滲透。