Ollama v0.19
Ollama sur Apple Silicon : Accélération majeure avec MLX et NVFP4 pour l'IA locale
Découvrez la nouvelle ère d'Ollama propulsée par le framework MLX d'Apple. Cette mise à jour révolutionnaire apporte des gains de performance massifs sur les puces M5, M5 Pro et M5 Max, optimisant les modèles de langage comme Qwen3.5 pour les assistants personnels et les agents de codage comme Claude Code. Grâce au support du format NVFP4 et à un système de mise en cache intelligent, Ollama offre désormais une réactivité sans précédent et une efficacité mémoire accrue sur macOS.
2026-04-03
--K
Ollama v0.19 Informations sur le produit
Ollama sur Apple Silicon : Une Révolution de Performance avec MLX
L'évolution de l'intelligence artificielle locale franchit une étape historique. Ollama est désormais propulsé par MLX sur Apple Silicon en version preview. Cette intégration majeure représente la méthode la plus rapide pour exécuter Ollama sur le matériel Apple, transformant radicalement l'expérience des utilisateurs de macOS.
En exploitant le framework de machine learning d'Apple, Ollama débloque des niveaux de performance inédits pour accélérer vos flux de travail les plus exigeants, qu'il s'agisse d'assistants personnels sophistiqués ou d'agents de codage de nouvelle génération.
Qu'est-ce qu'Ollama ?
Ollama est une plateforme de pointe conçue pour l'exécution locale de modèles de langage (LLM). Dans sa dernière version, Ollama s'appuie sur l'architecture de mémoire unifiée d'Apple via le framework MLX. Cette synergie permet à Ollama de tirer pleinement parti des capacités matérielles des puces Apple Silicon, offrant une fluidité et une rapidité d'exécution qui étaient auparavant inaccessibles pour des modèles complexes exécutés en local.
Les Caractéristiques Majeures d'Ollama 0.19
1. Accélération MLX sur Apple Silicon
L'intégration de MLX permet à Ollama d'optimiser l'utilisation de la mémoire unifiée. Sur les dernières puces M5, M5 Pro et M5 Max, Ollama mobilise les nouveaux accélérateurs neuronaux GPU (GPU Neural Accelerators). Cela se traduit par une amélioration drastique du temps jusqu'au premier token (TTFT) et de la vitesse de génération globale (tokens par seconde).
2. Support du format NVFP4
Ollama intègre désormais le format NVFP4 de NVIDIA. Cette innovation permet de :
- Maintenir une précision de modèle exceptionnelle.
- Réduire les exigences en bande passante mémoire et en stockage.
- Garantir une parité de production avec les fournisseurs d'inférence à grande échelle.
- Exécuter des modèles optimisés via le NVIDIA model optimizer.
3. Système de Cache Intelligent
Le cache d'Ollama a été profondément remanié pour une efficacité maximale :
- Utilisation mémoire réduite : Réutilisation du cache entre les conversations.
- Checkpoints intelligents : Stockage de captures du cache à des points stratégiques du prompt pour réduire le traitement.
- Éviction optimisée : Les préfixes partagés sont conservés plus longtemps, même lors de l'abandon de branches de conversation anciennes.
4. Performances Mesurées
Les tests réalisés sur le modèle Qwen3.5-35B-A3B démontrent la supériorité d'Ollama 0.19 :
- Vitesse de Prefill : Passage de 1154 tokens/s (v0.18) à 1810 tokens/s (v0.19).
- Vitesse de Décodage : Passage de 58 tokens/s (v0.18) à 112 tokens/s (v0.19).
Cas d'Utilisation d'Ollama
L'accélération fournie par Ollama sur Apple Silicon ouvre des perspectives concrètes pour divers outils :
- Agents de Codage : Optimisez des outils comme Claude Code, OpenCode, Codex ou Pi. La réutilisation du cache rend les tâches agentiques beaucoup plus fluides.
- Assistants Personnels : Des solutions comme OpenClaw répondent désormais de manière quasi instantanée, offrant une interaction plus naturelle.
- Environnements de Production : Grâce au support NVFP4, les développeurs peuvent tester localement des modèles avec les mêmes résultats que dans un environnement de production mis à l'échelle.
Comment Utiliser Ollama sur Mac
Pour profiter de ces performances sur votre Mac, assurez-vous de disposer d'une machine équipée d'au moins 32 Go de mémoire unifiée.
Lancement de modèles spécifiques
Une fois Ollama 0.19 téléchargé, vous pouvez lancer les commandes suivantes dans votre terminal :
- Pour Claude Code :
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
- Pour OpenClaw :
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
- Pour discuter directement avec le modèle :
ollama run qwen3.5:35b-a3b-coding-nvfp4
FAQ - Questions Fréquemment Posées
Quelle est la configuration minimale requise pour cette version ?
Il est impératif d'utiliser un Mac avec Apple Silicon disposant de plus de 32 Go de mémoire unifiée pour exécuter de manière optimale les modèles comme le Qwen3.5-35B-A3B.
Pourquoi utiliser le format NVFP4 avec Ollama ?
Le format NVFP4 permet de réduire la consommation de ressources tout en gardant une qualité de réponse élevée. Cela permet à Ollama de s'aligner sur les standards de production utilisés par les grands fournisseurs d'inférence.
Ollama supporte-t-il les modèles personnalisés ?
Oui, l'équipe d'Ollama travaille activement sur une méthode simplifiée pour importer des modèles personnalisés basés sur les architectures supportées. Le support de nouvelles architectures est également en expansion.
Quels sont les avantages du nouveau système de cache ?
Le nouveau cache d'Ollama permet des gains de vitesse significatifs lors de l'utilisation de prompts système partagés ou d'outils agentiques, en évitant de retraiter inutilement des informations déjà analysées.
Note : Cette version d'Ollama est actuellement en preview et continue d'évoluer grâce aux contributions des équipes de MLX, NVIDIA, GGML et Alibaba Qwen.








