Ollama v0.8發佈！AI流式響應+實時搜索，本地模型也能秒變智能助手！

Ollama官方宣佈推出其最新版本Ollama v0.8，爲本地運行大型語言模型（LLM）帶來了突破性升級。新版本引入了流式傳輸響應和工具調用功能，支持實時網絡搜索等交互場景，顯著提升了本地AI的實用性和靈活性。AIbase爲您整理了Ollama v0.8的核心亮點及其對AI生態的影響。

流式傳輸響應:實時交互更流暢

Ollama v0.8最大的亮點之一是新增了流式傳輸響應功能。用戶在使用AI模型進行對話或任務處理時，可實時接收逐步生成的響應，而無需等待完整結果輸出。這一功能顯著提升了交互體驗，尤其在處理複雜查詢或長文本生成時，流式傳輸讓用戶能夠即時查看AI的思考過程，減少等待時間。

例如，在網絡搜索場景中，Ollama v0.8可以通過流式傳輸實時呈現搜索結果的生成過程，使用戶能夠快速獲取最新信息。這一特性不僅提升了效率，還爲教育、研究和內容創作等場景提供了更動態的交互方式。

工具調用:本地AI連接外部世界

Ollama v0.8引入的工具調用功能，使本地運行的語言模型能夠通過API與外部工具和數據源交互。例如，模型可以通過調用網絡搜索API獲取實時數據，或連接到其他服務（如數據庫或第三方工具）以完成更復雜的任務。這一功能打破了傳統本地AI的侷限，使其從靜態響應升級爲動態、實時的智能助手。

官方展示了一個網絡搜索示例，Ollama v0.8能夠根據用戶查詢快速調用搜索工具，並在流式傳輸中逐步呈現結果。儘管當前工具調用不支持語法約束（可能導致高溫度設置下模型輸出不穩定），但這一功能的加入已爲本地AI的擴展性開闢了新可能。

性能優化:更高效的模型運行

Ollama v0.8在性能優化方面也取得了顯著進展。新版本修復了Gemma3、Mistral Small3.1等模型運行時的內存泄漏問題，並優化了模型加載速度，尤其在網絡支持的文件系統（如Google Cloud Storage FUSE）上表現更佳。此外，新增的滑動窗口注意力優化進一步提升了Gemma3的長上下文推理速度和內存分配效率。

Ollama v0.8還改進了模型導入流程，通過自動選擇適合的模板簡化了從Safetensors導入Gemma3等模型的操作。同時，新版本支持更靈活的併發請求處理，允許用戶通過環境變量（如OLLAMA_MAX_LOADED_MODELS和OLLAMA_NUM_PARALLEL）調整模型加載和並行請求數量，適應不同硬件配置的需求。

開源生態:賦能開發者與社區

作爲一款開源框架，Ollama v0.8繼續秉承開放共享的理念。官方已在GitHub上發佈了完整代碼和詳細文檔，支持包括Llama3.3、DeepSeek-R1、Phi-4、Gemma3和Mistral Small3.1在內的多種主流模型。開發者可以通過簡單的命令（如ollama run deepseek-r1:1.5b）在本地運行這些模型，無需依賴雲端API，兼顧了隱私性和成本效益。

此外，Ollama v0.8新增了對AMD顯卡的預覽支持（適用於Windows和Linux），並通過與OpenAI Chat Completions API的初始兼容性，允許開發者使用現有OpenAI工具與本地模型無縫對接。這種開放性和兼容性進一步降低了開發門檻，吸引了更多開發者加入Ollama生態。

行業影響:本地AI的崛起

Ollama v0.8的發佈進一步鞏固了其在本地AI領域的領先地位。通過流式傳輸和工具調用功能，Ollama不僅提升了本地模型的交互性，還使其能夠與雲端模型競爭，尤其在隱私敏感或離線場景中表現突出。業內人士認爲，Ollama的持續創新將推動本地AI的普及，特別是在教育、科研和企業級應用中。

然而，部分反饋指出，Ollama v0.8的工具調用在高溫度設置下可能出現不穩定問題，且OpenAI兼容端點暫不支持流式傳輸參數。這些問題表明，技術仍在快速迭代中，未來版本有望進一步優化。

結語:Ollama v0.8開啓本地AI新可能

Ollama v0.8以流式傳輸、工具調用和性能優化的全新特性，爲本地運行大型語言模型注入了新的活力。從實時網絡搜索到高效模型運行，這款開源框架正在重塑AI的開發與應用方式。

項目地址：https://github.com/ollama/ollama/releases/tag/v0.8.0

Ollama v0.8發佈！AI流式響應+實時搜索，本地模型也能秒變智能助手！

相關推薦

微博推出 VibeThinker-1.5B，低成本 AI 模型挑戰大型語言模型

揭開MiniMax M2的神祕面紗：爲何選擇全注意力機制？

Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷

應對模型推理缺陷:蘋果MIND團隊加緊招聘AI人才

AI 驅動的“數字孿生”解放工作效率:初創公司 Viven 獲3500萬美元種子輪融資，解決員工“不在場”痛點

Ollama v0.8發佈！AI流式響應+實時搜索，本地模型也能秒變智能助手！

相關推薦

微博推出 VibeThinker-1.5B，低成本 AI 模型挑戰大型語言模型

揭開MiniMax M2的神祕面紗：爲何選擇全注意力機制？

​Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷

應對模型推理缺陷:蘋果MIND團隊加緊招聘AI人才

AI 驅動的“數字孿生”解放工作效率:初創公司 Viven 獲3500萬美元種子輪融資，解決員工“不在場”痛點

Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷