Mac 用戶的福利！Ollama 集成蘋果 MLX 框架：推理速度翻倍，M5 芯片直接起飛

如果你是在 Mac 上進行本地大模型開發的極客，那麼Ollama剛剛發佈的這份“性能大禮包”絕對不容錯過。

3 月 31 日，本地大模型運行方案Ollama正式發佈更新，宣佈引入蘋果自研的機器學習框架 MLX。這一底層架構的變動，爲搭載 Apple 芯片的 Mac 設備帶來了立竿見影的性能跨越，讓本地 AI 的響應速度邁上了一個新臺階。

核心提升：響應速度最高翻倍，M5 表現驚豔

根據官方披露的數據，集成 MLX 框架後的Ollama在性能上實現了“兩步走”的飛躍：

預填階段（Prefill）提速 1.6 倍： 在處理用戶輸入的提示詞階段，系統反應更加敏捷。
生成階段（Decode）速度翻倍： 在模型產出回覆的過程中，字句彈出的速度幾乎提升了 100%。
新機型特供： 對於配備 M5 系列芯片的最新機型，由於蘋果在硬件中加入了全新的 GPU Neural Accelerator（神經加速器），其受惠程度最爲顯著，推理體驗已接近“即時響應”。

內存管理優化：長對話不再“卡殼”

除了純粹的速度提升，本次更新還深度優化了內存管理策略：

首發陣營：阿里 Qwen 3.5 率先支持

在預覽階段，這一基於 MLX 加速的版本（Ollama 0.19 預覽版）主要針對 阿里旗下的Qwen 3.5 模型進行了專項支持。不過Ollama已經明確表示，後續將逐步適配更多主流 AI 模型。

行業觀察：本地 AI 助手的“毫秒級”時代

對於依賴Ollama驅動本地 AI 編碼工具（如 OpenClaw）或代碼助手（如 Claude Code、Codex）的開發者來說，這次更新意味着工作流的極大閉環。當延遲縮減到亞秒級，本地運行的大模型將不再是“實驗室玩物”，而是真正能與雲端服務抗衡的即時生產力工具。

結語：蘋果生態的算力閉環

從自研芯片到自研框架，蘋果正在一步步收攏 AI 開發的話語權。而Ollama對 MLX 的擁抱，不僅讓 Mac 坐穩了“本地 AI 開發首選機型”的寶座，也讓開發者看到了軟硬一體化帶來的極致紅利。

DeepSeek、豆包全支持！這款“網頁總結神器”登陸 Edge 商店：本地大模型也能一鍵白嫖？