Ollama v0.19 favicon

Ollama v0.19

Ollama 0.19 预览版:MLX 驱动 Apple Silicon 极速推理新体验

介绍:

Ollama 0.19 预览版现已发布,通过集成 Apple 的 MLX 机器学习框架,为 Apple Silicon 用户带来前所未有的推理性能提升。该版本特别针对 M5 系列芯片优化,通过统一内存架构和 GPU 神经加速器,大幅缩短首字响应时间并提升生成速度。此外,新增 NVFP4 格式支持与智能缓存升级,使 Ollama 成为在 macOS 上运行个人助手及编码智能体的最佳选择。

记录:

2026-04-03

每月访客数:

--K

Ollama v0.19 - AI Tool Screenshot and Interface Preview

Ollama v0.19 产品信息

Ollama 0.19 预览版发布:由 MLX 驱动的 Apple Silicon 极速 AI 推理

2026年3月30日,Ollama 宣布推出全新预览版,这标志着在 Apple Silicon 设备上运行 Ollama 的速度达到了新的巅峰。本次更新的核心在于集成了 Apple 原生的 MLX 机器学习框架,旨在充分释放 macOS 设备的硬件潜能。

什么是 Ollama(MLX 预览版)?

Ollama 是一款领先的本地模型运行工具,而此次发布的预览版则是专为 Apple Silicon 优化的版本。通过采用 MLX 框架,Ollama 能够深度利用 Apple 芯片的统一内存架构(Unified Memory Architecture)。

这意味着无论是在处理复杂的个人助手任务(如 OpenClaw),还是驱动高性能编码智能体(如 Claude CodeOpenCodeCodex)时,Ollama 都能提供更加流畅、迅捷的响应体验。对于追求极致本地 AI 性能的开发者和创意专业人士来说,这是目前在 Mac 上部署 Ollama 的最快方式。

主要功能与特性 (Features)

1. MLX 架构带来的性能飞跃

Ollama 现在构建于 Apple 的 MLX 框架之上,在所有 Apple Silicon 设备上均实现了大幅增速。特别是在搭载 M5、M5 Pro 和 M5 Max 芯片的设备上,Ollama 利用全新的 GPU 神经加速器,显著提升了以下两个核心指标:

  • Time to First Token (TTFT):首字响应时间大幅缩短。
  • Generation Speed:每秒生成的 Token 数量显著增加。

2. 支持 NVFP4 格式:高精度与生产力兼得

Ollama 现已支持 NVIDIA 的 NVFP4 格式。这一特性具有双重优势:

  • 保持高精度:在减少内存带宽占用和存储需求的同时,维持模型原有的响应质量。
  • 生产环境一致性:随着更多推理平台采用 NVFP4,Ollama 用户可以获得与生产环境完全一致的推理结果。
  • 兼容性:支持由 NVIDIA 模型优化器优化的模型,并计划在未来开放更多精度选项。

3. 智能缓存升级 (Improved Caching)

为了提升编码和代理任务的效率,Ollama 的缓存机制进行了全面革新:

  • 降低内存占用:支持跨对话重用缓存。在使用 Claude Code 等工具处理共享系统提示词时,能显著提高缓存命中率。
  • 智能检查点Ollama 会在提示词的关键位置存储快照,减少重复处理,加快响应速度。
  • 智能淘汰机制:即使旧的分支被丢弃,共享前缀也能保留更长时间。

性能数据参考

根据 2026 年 3 月 29 日的测试数据(使用 Qwen3.5-35B-A3B 模型):

Prefill 性能(预填充速度)

  • Ollama 0.19 (MLX): 1810 tokens/s
  • Ollama 0.18: 1154 tokens/s

Decode 性能(解码速度)

  • Ollama 0.19 (MLX): 112 tokens/s
  • Ollama 0.18: 58 tokens/s

注:在使用 int4 量化运行时,Ollama 0.19 的性能最高可达 1851 token/s (Prefill) 和 134 token/s (Decode)。

使用场景 (Use Case)

Ollama 0.19 预览版特别适合以下高负载、高并发的 AI 工作流:

  • 编码智能体 (Coding Agents):加速 PiClaude CodeCodex 的代码生成与逻辑推理。
  • 个人助手 (Personal Assistants):如 OpenClaw,在 MLX 加持下,其响应速度变得异常敏捷。
  • 生产力工具集成:通过共享系统提示词和高效工具调用,实现复杂的自动化任务。

如何使用 (How to Use)

在使用 Ollama 0.19 预览版之前,请确保您的 Mac 配备了 32GB 或更多 的统一内存。

步骤 1:下载并安装

前往官方渠道下载 Ollama 0.19 预览版安装包。

步骤 2:启动特定模型

您可以针对不同的应用场景运行优化后的模型。以下是常用命令:

  • 启动 Claude Code 相关任务: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

  • 启动 OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

  • 直接与模型对话: ollama run qwen3.5:35b-a3b-coding-nvfp4

常见问题 (FAQ)

Q: 我可以在 Intel 芯片的 Mac 上运行这个版本吗? A: 此预览版专门针对 Apple Silicon(M系列芯片)开发,利用了 MLX 框架和统一内存架构,因此建议在 M1 及其后续芯片的 Mac 上使用。

Q: 为什么需要 32GB 以上内存? A: 预览版加速的 Qwen3.5-35B-A3B 等大模型在运行过程中需要较大的内存空间以确保流畅度和处理复杂的编码任务。

Q: Ollama 未来会支持更多模型吗? A: 是的,Ollama 团队正在积极开发以支持更多未来的模型架构。此外,还将推出更便捷的方法来导入经过微调的自定义模型。

Q: NVFP4 格式有什么特别之处? A: 它允许 Ollama 在不牺牲模型准确性的前提下,减少对硬件资源的消耗,并确保本地运行效果与云端生产环境保持一致。

Loading related products...