Ollama v0.19

Ollama sur Apple Silicon : Accélération majeure avec MLX et NVFP4 pour l'IA locale

Introduction:

Découvrez la nouvelle ère d'Ollama propulsée par le framework MLX d'Apple. Cette mise à jour révolutionnaire apporte des gains de performance massifs sur les puces M5, M5 Pro et M5 Max, optimisant les modèles de langage comme Qwen3.5 pour les assistants personnels et les agents de codage comme Claude Code. Grâce au support du format NVFP4 et à un système de mise en cache intelligent, Ollama offre désormais une réactivité sans précédent et une efficacité mémoire accrue sur macOS.

Ajouté:

2026-04-03

Visiteurs mensuels:

--K

Code et IT

Ollama v0.19 - AI Tool Screenshot and Interface Preview

Ollama v0.19 Informations sur le produit

Ollama sur Apple Silicon : Une Révolution de Performance avec MLX

L'évolution de l'intelligence artificielle locale franchit une étape historique. Ollama est désormais propulsé par MLX sur Apple Silicon en version preview. Cette intégration majeure représente la méthode la plus rapide pour exécuter Ollama sur le matériel Apple, transformant radicalement l'expérience des utilisateurs de macOS.

En exploitant le framework de machine learning d'Apple, Ollama débloque des niveaux de performance inédits pour accélérer vos flux de travail les plus exigeants, qu'il s'agisse d'assistants personnels sophistiqués ou d'agents de codage de nouvelle génération.

Qu'est-ce qu'Ollama ?

Ollama est une plateforme de pointe conçue pour l'exécution locale de modèles de langage (LLM). Dans sa dernière version, Ollama s'appuie sur l'architecture de mémoire unifiée d'Apple via le framework MLX. Cette synergie permet à Ollama de tirer pleinement parti des capacités matérielles des puces Apple Silicon, offrant une fluidité et une rapidité d'exécution qui étaient auparavant inaccessibles pour des modèles complexes exécutés en local.

Les Caractéristiques Majeures d'Ollama 0.19

1. Accélération MLX sur Apple Silicon

L'intégration de MLX permet à Ollama d'optimiser l'utilisation de la mémoire unifiée. Sur les dernières puces M5, M5 Pro et M5 Max, Ollama mobilise les nouveaux accélérateurs neuronaux GPU (GPU Neural Accelerators). Cela se traduit par une amélioration drastique du temps jusqu'au premier token (TTFT) et de la vitesse de génération globale (tokens par seconde).

2. Support du format NVFP4

Ollama intègre désormais le format NVFP4 de NVIDIA. Cette innovation permet de :

Maintenir une précision de modèle exceptionnelle.
Réduire les exigences en bande passante mémoire et en stockage.
Garantir une parité de production avec les fournisseurs d'inférence à grande échelle.
Exécuter des modèles optimisés via le NVIDIA model optimizer.

3. Système de Cache Intelligent

Le cache d'Ollama a été profondément remanié pour une efficacité maximale :

Utilisation mémoire réduite : Réutilisation du cache entre les conversations.
Checkpoints intelligents : Stockage de captures du cache à des points stratégiques du prompt pour réduire le traitement.
Éviction optimisée : Les préfixes partagés sont conservés plus longtemps, même lors de l'abandon de branches de conversation anciennes.

4. Performances Mesurées

Les tests réalisés sur le modèle Qwen3.5-35B-A3B démontrent la supériorité d'Ollama 0.19 :

Vitesse de Prefill : Passage de 1154 tokens/s (v0.18) à 1810 tokens/s (v0.19).
Vitesse de Décodage : Passage de 58 tokens/s (v0.18) à 112 tokens/s (v0.19).

Cas d'Utilisation d'Ollama

L'accélération fournie par Ollama sur Apple Silicon ouvre des perspectives concrètes pour divers outils :

Agents de Codage : Optimisez des outils comme Claude Code, OpenCode, Codex ou Pi. La réutilisation du cache rend les tâches agentiques beaucoup plus fluides.
Assistants Personnels : Des solutions comme OpenClaw répondent désormais de manière quasi instantanée, offrant une interaction plus naturelle.
Environnements de Production : Grâce au support NVFP4, les développeurs peuvent tester localement des modèles avec les mêmes résultats que dans un environnement de production mis à l'échelle.

Comment Utiliser Ollama sur Mac

Pour profiter de ces performances sur votre Mac, assurez-vous de disposer d'une machine équipée d'au moins 32 Go de mémoire unifiée.

Lancement de modèles spécifiques

Une fois Ollama 0.19 téléchargé, vous pouvez lancer les commandes suivantes dans votre terminal :

Pour Claude Code :

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

Pour OpenClaw :

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

Pour discuter directement avec le modèle :

ollama run qwen3.5:35b-a3b-coding-nvfp4

FAQ - Questions Fréquemment Posées

Quelle est la configuration minimale requise pour cette version ?

Il est impératif d'utiliser un Mac avec Apple Silicon disposant de plus de 32 Go de mémoire unifiée pour exécuter de manière optimale les modèles comme le Qwen3.5-35B-A3B.

Pourquoi utiliser le format NVFP4 avec Ollama ?

Le format NVFP4 permet de réduire la consommation de ressources tout en gardant une qualité de réponse élevée. Cela permet à Ollama de s'aligner sur les standards de production utilisés par les grands fournisseurs d'inférence.

Ollama supporte-t-il les modèles personnalisés ?

Oui, l'équipe d'Ollama travaille activement sur une méthode simplifiée pour importer des modèles personnalisés basés sur les architectures supportées. Le support de nouvelles architectures est également en expansion.

Quels sont les avantages du nouveau système de cache ?

Le nouveau cache d'Ollama permet des gains de vitesse significatifs lors de l'utilisation de prompts système partagés ou d'outils agentiques, en évitant de retraiter inutilement des informations déjà analysées.

Note : Cette version d'Ollama est actuellement en preview et continue d'évoluer grâce aux contributions des équipes de MLX, NVIDIA, GGML et Alibaba Qwen.

Alternatives Tools

Graphbit PRFlow

PRFlow : L'outil de revue de code IA révolutionnaire pour détecter les vulnérabilités de sécurité

PRFlow est la seule solution de revue de code par intelligence artificielle capable d'identifier les bugs critiques avant leur mise en production. En indexant l'intégralité de votre base de code et en analysant les dépendances entre fichiers, PRFlow réalise des audits de sécurité structurés en moins de trois minutes. Contrairement aux outils traditionnels, il apprend des retours de votre équipe pour affiner ses futures analyses. Compatible exclusivement avec GitHub, il s'installe en cinq minutes sans configuration CI/CD complexe. Avec un score de 4,3/5 sur des tests réels, PRFlow surpasse ses concurrents en détectant des failles complexes comme les injections XSS ou SSRF.

Code et IT

Atomic Mail

Atomic Mail : Messagerie sécurisée et chiffrée pour une protection absolue de votre vie privée

Découvrez Atomic Mail, le service de messagerie innovant utilisant le chiffrement de bout en bout et la technologie blockchain pour sécuriser vos données. Avec des outils d'IA avancés, des alias illimités et une conformité RGPD stricte, Atomic Mail redéfinit la communication privée sans publicités ni frais de stockage.

Code et IT

Superset 2.0

Superset : L'Éditeur de Code Révolutionnaire pour Orchestrer des Agents IA en Parallèle

Superset est l'éditeur de code de nouvelle génération conçu pour l'ère de l'intelligence artificielle. Il permet aux développeurs d'orchestrer plus de 100 agents de codage en parallèle, offrant une puissance de développement démultipliée. Que vous utilisiez Claude Code, Cursor, Gemini ou Codex, Superset garantit une compatibilité universelle et une isolation parfaite des tâches grâce aux Git worktrees. Optimisez votre flux de travail, gérez vos branches en parallèle et intégrez vos IDE favoris comme VS Code ou JetBrains pour une productivité sans précédent.

Code et IT

Waydev Agent

Waydev : La plateforme leader d'intelligence en ingénierie logicielle pour optimiser la productivité, le ROI de l'IA et les métriques DORA.

Waydev est une plateforme d'intelligence en ingénierie logicielle (Software Engineering Intelligence) de premier plan, soutenue par Y Combinator et reconnue par TechCrunch. Leader du marché selon G2 Crowd pour 2025, Waydev permet aux leaders technologiques de mesurer l'impact des agents d'IA, d'optimiser le cycle de vie du développement logiciel (SDLC) et d'aligner le travail d'ingénierie sur les priorités commerciales. Grâce à l'intégration transparente des outils Git, CI/CD et de ticketing, Waydev fournit des données exploitables via les frameworks DORA et SPACE, améliorant la vélocité de 2,2x et réduisant le travail non planifié de 21 %.

Code et IT

Kilo Code v7 for VS Code

Kilo Code : La révolution de l'IA de développement avec exécution parallèle pour VS Code

Kilo Code est une extension VS Code reconstruite, alimentée par un cœur portable open-source (OpenCode). Elle offre l'exécution parallèle, la délégation de sous-agents, des sessions multiplateformes et une revue de code en ligne native pour une productivité décuplée.

Code et IT

Claude Code & Codex Usage Trading Cards by Rudel

Analyse de performance Claude Code Wrapped : Guide complet sur la productivité et l'optimisation du développement IA

Découvrez l'analyse détaillée de Claude Code Wrapped, un outil de reporting de performance pour les développeurs. Ce guide explore les statistiques de l'utilisateur Jon Doe au 25 avril 2026, incluant 219 sessions, 1,9 million de tokens traités et une efficacité remarquable avec la fonction Refactor. Maximisez votre compréhension des métriques de codage IA, des taux de succès des commits et de la gestion des sub-agents pour optimiser vos flux de travail techniques.

Code et IT

Codex Pets

Guide complet sur l'application Codex : Paramétrage, IA et optimisation pour développeurs

Explorez les fonctionnalités avancées et les paramètres de l'application Codex. Apprenez à configurer les agents, le protocole MCP, et à utiliser l'IA pour automatiser vos workflows de développement.

Code et IT

Radar

Radar : L'interface utilisateur Kubernetes open source pour la topologie et la gestion de flotte

Découvrez Radar de Skyhook, une interface utilisateur Kubernetes révolutionnaire et open source (Apache 2.0). Radar simplifie la gestion des clusters Kubernetes grâce à une visibilité en temps réel sur la topologie, les événements, Helm et le GitOps. Que ce soit en binaire unique local ou auto-hébergé, Radar offre des outils de débogage avancés, une inspection d'images et un serveur MCP pour les agents IA, comblant les lacunes de kubectl pour les équipes d'ingénierie plateforme modernes.

Code et IT

Loading related products...