Ollama v0.19
Ollama 0.19: Potenciado por MLX para máximo rendimiento en Apple Silicon
Ollama 0.19 introduce una integración revolucionaria con MLX, el framework de aprendizaje automático de Apple, permitiendo una ejecución de modelos de IA sin precedentes en dispositivos macOS. Con soporte para el formato NVFP4 de NVIDIA y mejoras drásticas en la gestión de caché, Ollama ofrece velocidades de prefill de hasta 1810 tokens/s y decode de 112 tokens/s en chips M5. Esta actualización optimiza asistentes personales y agentes de codificación como Claude Code y OpenClaw, aprovechando la arquitectura de memoria unificada y los nuevos aceleradores neuronales de GPU.
2026-04-03
--K
Ollama v0.19 Información del producto
Ollama: La Revolución de la Inteligencia Artificial en Apple Silicon con MLX
El ecosistema de la inteligencia artificial local ha alcanzado un nuevo hito con el lanzamiento de la versión preview de Ollama, ahora potenciada por MLX, el avanzado framework de aprendizaje automático de Apple. Esta actualización transforma a Ollama en la herramienta definitiva para ejecutar modelos de lenguaje de gran tamaño (LLM) en hardware macOS, aprovechando al máximo la arquitectura de silicio de Apple.
¿Qué es Ollama?
Ollama es una plataforma líder diseñada para ejecutar modelos de inteligencia artificial de código abierto de forma local y eficiente. Con su última actualización, Ollama se integra profundamente con el framework MLX en dispositivos Apple Silicon, lo que permite una comunicación directa con la arquitectura de memoria unificada de los chips de la serie M.
Esta integración convierte a Ollama en la vía más rápida y optimizada para que desarrolladores y entusiastas de la IA ejecuten asistentes personales y agentes de codificación exigentes directamente en sus equipos Mac, sin depender de la nube y garantizando una privacidad total.
Características Principales de Ollama 0.19
La nueva arquitectura de Ollama introduce mejoras críticas que redefinen el rendimiento en entornos locales:
Máximo Rendimiento con MLX y Apple Silicon
Ollama ha sido reconstruido sobre MLX para tomar ventaja de la memoria unificada. En los nuevos chips M5, M5 Pro y M5 Max, Ollama utiliza los nuevos Aceleradores Neuronales de GPU, optimizando tanto el tiempo hasta el primer token (TTFT) como la velocidad de generación.
- Rendimiento de Prefill: Alcanza hasta 1810 tokens/s (en comparación con los 1154 tokens/s de versiones anteriores).
- Rendimiento de Decode: Logra hasta 112 tokens/s, superando significativamente los 58 tokens/s de la versión 0.18.
Soporte para el Formato NVFP4 de NVIDIA
Para mantener la precisión del modelo mientras se reduce el uso de memoria y almacenamiento, Ollama ahora implementa el formato NVFP4. Esto permite:
- Paridad de producción: Obtener los mismos resultados en local que en entornos de producción a gran escala.
- Optimización de NVIDIA: Capacidad para ejecutar modelos optimizados mediante el optimizador de modelos de NVIDIA.
Sistema de Caché Inteligente y Optimizado
El manejo de la memoria ha sido refinado en Ollama para tareas agénticas y de codificación:
- Menor utilización de memoria: Reutilización de caché entre conversaciones.
- Checkpoints inteligentes: Almacenamiento de instantáneas de caché en ubicaciones estratégicas del prompt.
- Evicción inteligente: Los prefijos compartidos permanecen más tiempo en memoria, mejorando la respuesta en tareas con herramientas como Claude Code.
Casos de Uso de Ollama
Gracias a su aceleración de hardware, Ollama es ideal para flujos de trabajo intensivos:
- Agentes de Codificación: Herramientas como Claude Code, OpenCode, Codex y Pi funcionan con una fluidez sin precedentes.
- Asistentes Personales: Aplicaciones como OpenClaw responden de manera casi instantánea, mejorando la interactividad.
- Entornos de Producción Local: Los desarrolladores pueden testear modelos con cuantización NVFP4 asegurando que la calidad de respuesta sea idéntica a la de los servicios en la nube.
Cómo usar Ollama 0.19
Para comenzar a utilizar esta versión preview de Ollama, es necesario contar con un Mac con más de 32GB de memoria unificada. Aquí te mostramos cómo ejecutar los modelos más recientes:
Lanzamiento para Claude Code
Usa el siguiente comando para iniciar Ollama optimizado para codificación:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
Lanzamiento para OpenClaw
Para una experiencia rápida con asistentes personales:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
Chat Directo con el Modelo
Si prefieres interactuar directamente con el modelo Qwen3.5 optimizado:
ollama run qwen3.5:35b-a3b-coding-nvfp4
Preguntas Frecuentes (FAQ)
¿Qué requisitos de hardware tiene esta versión de Ollama? Se requiere un Mac con Apple Silicon y un mínimo de 32GB de memoria unificada para garantizar un rendimiento óptimo con modelos como Qwen3.5-35B.
¿Cómo mejora MLX la experiencia en Ollama? MLX permite que Ollama acceda directamente a los aceleradores neuronales de la GPU y gestione la memoria de forma más eficiente, resultando en velocidades de generación casi el doble de rápidas.
¿Qué es el formato NVFP4 soportado por Ollama? Es un formato de cuantización de NVIDIA que reduce los requisitos de ancho de banda de memoria sin sacrificar la precisión del modelo, permitiendo ejecutar modelos de alta calidad en hardware local.
¿Soportará Ollama modelos personalizados en el futuro? Sí, se está trabajando para facilitar la importación de modelos personalizados ajustados (fine-tuned) en arquitecturas soportadas por Ollama.
Con esta actualización, Ollama se posiciona como el estándar de oro para la ejecución de inteligencia artificial en macOS, ofreciendo una combinación inigualable de velocidad, eficiencia y calidad de respuesta.








