如果你是在 Mac 上進行本地大模型開發的極客,那麼Ollama剛剛發佈的這份“性能大禮包”絕對不容錯過。

3 月 31 日,本地大模型運行方案Ollama正式發佈更新,宣佈引入蘋果自研的機器學習框架 MLX。這一底層架構的變動,爲搭載 Apple 芯片的 Mac 設備帶來了立竿見影的性能跨越,讓本地 AI 的響應速度邁上了一個新臺階。

核心提升:響應速度最高翻倍,M5 表現驚豔

根據官方披露的數據,集成 MLX 框架後的Ollama在性能上實現了“兩步走”的飛躍:

  • 預填階段(Prefill)提速 1.6 倍: 在處理用戶輸入的提示詞階段,系統反應更加敏捷。

  • 生成階段(Decode)速度翻倍: 在模型產出回覆的過程中,字句彈出的速度幾乎提升了 100%。

  • 新機型特供 對於配備 M5 系列芯片的最新機型,由於蘋果在硬件中加入了全新的 GPU Neural Accelerator(神經加速器),其受惠程度最爲顯著,推理體驗已接近“即時響應”。

內存管理優化:長對話不再“卡殼”

除了純粹的速度提升,本次更新還深度優化了內存管理策略:

  • 高效調度: 新版本能更靈活地利用 Mac 的系統統一內存(Unified Memory),即便在長時間、大上下文的會話中,也能保持流暢的交互。

  • 專業建議: 官方建議用戶在配備 32GB 或更高內存 的 Mac 上運行,以換取最理想的推理表現。

首發陣營:阿里 Qwen 3.5 率先支持

在預覽階段,這一基於 MLX 加速的版本(Ollama 0.19 預覽版)主要針對 阿里旗下的Qwen 3.5 模型進行了專項支持。不過Ollama已經明確表示,後續將逐步適配更多主流 AI 模型。

行業觀察:本地 AI 助手的“毫秒級”時代

對於依賴Ollama驅動本地 AI 編碼工具(如 OpenClaw)或代碼助手(如 Claude Code、Codex)的開發者來說,這次更新意味着工作流的極大閉環。當延遲縮減到亞秒級,本地運行的大模型將不再是“實驗室玩物”,而是真正能與雲端服務抗衡的即時生產力工具。

結語:蘋果生態的算力閉環

從自研芯片到自研框架,蘋果正在一步步收攏 AI 開發的話語權。而Ollama對 MLX 的擁抱,不僅讓 Mac 坐穩了“本地 AI 開發首選機型”的寶座,也讓開發者看到了軟硬一體化帶來的極致紅利。