小米 MiMo-V2.5 系列 API 永久降價，最高降幅達 99%

在 AI 模型價格戰持續升溫的背景下，小米旗下 MiMo 大模型於5月27日正式發佈公告，對其 MiMo-V2.5系列 API 實施永久性降價，並同步優化了計費體系，旨在通過技術紅利進一步降低開發者的調用成本。

本次調價已於北京時間 5月27日0:00 全球同步生效。此次調整覆蓋 MiMo-V2.5和 MiMo-V2.5Pro 兩個核心版本，且不再區分上下文窗口長度，定價策略更趨向於極簡與透明。

除了直接的 API 單價下調，小米還對 Token Plan 計費體系進行了深度優化:

小米官方透露，此次大幅降價的底氣源於其在推理系統底層架構上的技術突破:

SWA 推理優化: 基於 SGLang HiCache 完整支持 SWA（滑動窗口注意力機制），使得 KV Cache 在 GPU 顯存、CPU 內存及 SSD 之間的多級搬運數據量減少至原來的1/7。
緩存效率提升: 可緩存 Token 數量激增至優化前的近5倍，顯著提升了緩存命中率，大幅攤薄了單位推理成本。
集羣吞吐優化: 通過引入專家並行（MoE）方案與輸入長度分桶策略，集羣的輸入吞吐能力得到質的提升，確保在服務質量保持高水準的同時，持續壓低單位 Token 的服務成本。

小米此舉被業內視爲對當前大模型商業化“內卷”的積極迴應。隨着價格門檻的進一步降低，MiMo 系列模型的性價比優勢將進一步顯現，加速 AI 能力在各垂直行業及開發者工作流中的深度滲透。

美國放行GPT-5.6，OpenAI多款重磅模型本週上線