Ollama v0.19
Ollama voor Apple Silicon: Ultrasnelle AI-inferentie aangedreven door MLX en NVFP4-technologie
Ontdek de nieuwste evolutie van Ollama, nu geoptimaliseerd voor Apple Silicon met het MLX-framework. Deze update biedt ongekende prestaties voor macOS-gebruikers, met ondersteuning voor NVIDIA's NVFP4-formaat en verbeterde caching-mechanismen. Ideaal voor ontwikkelaars die werken met coding agents zoals Claude Code en persoonlijke assistenten zoals OpenClaw. Met Ollama 0.19 profiteert u van snellere 'time to first token' en hogere generatiesnelheden op M5-chips, waardoor lokale AI-modellen efficiënter dan ooit draaien.
2026-04-03
--K
Ollama v0.19 Productinformatie
Ollama op Apple Silicon: De Toekomst van Lokale AI-Prestaties
Welkom bij de nieuwe generatie van lokale AI-inferentie. Ollama is nu officieel voorzien van een preview-versie die wordt aangedreven door MLX, het geavanceerde machine learning framework van Apple. Deze integratie is specifiek ontworpen om de volledige kracht van Apple Silicon te benutten, waardoor Ollama de snelste manier wordt om AI-modellen lokaal op macOS te draaien.
Of u nu een ontwikkelaar bent die vertrouwt op coding agents of een AI-enthousiasteling die persoonlijke assistenten bouwt, de nieuwste versie van Ollama zet een nieuwe standaard voor snelheid en efficiëntie.
Wat is Ollama?
Ollama is een krachtig platform dat gebruikers in staat stelt om grote taalmodellen (LLM's) lokaal op hun eigen hardware te draaien. Met de introductie van de MLX-ondersteuning is Ollama nu specifiek geoptimaliseerd voor de unified memory architectuur van Apple Silicon. Dit betekent dat Ollama direct communiceert met de hardware-versnellers van de Mac, wat resulteert in een aanzienlijke prestatieverbetering ten opzichte van eerdere versies.
De nieuwste versie, Ollama 0.19, introduceert niet alleen ondersteuning voor het MLX-framework, maar brengt ook innovaties zoals het NVFP4-formaat naar het Apple-ecosysteem. Hierdoor kunnen gebruikers rekenen op resultaten van productiekwaliteit direct op hun desktop.
Belangrijkste Kenmerken van Ollama
De vernieuwde architectuur van Ollama brengt diverse technologische doorbraken met zich mee:
1. MLX-Aangedreven Snelheid op Apple Silicon
Door de integratie van Apple's MLX-framework maakt Ollama nu optimaal gebruik van de GPU Neural Accelerators in de nieuwste chipsets. Vooral op de M5, M5 Pro en M5 Max chips resulteert dit in een enorme sprong in prestaties:
- Prefill performance: Tot 1810 tokens/s (vergeleken met 1154 tokens/s in versie 0.18).
- Decode performance: Tot 112 tokens/s (vergeleken met 58 tokens/s in versie 0.18).
- Opmerking: Met int4 quantisatie kan de snelheid zelfs oplopen tot 1851 tokens/s prefill en 134 tokens/s decode.
2. Ondersteuning voor NVFP4
Ollama maakt nu gebruik van het NVFP4-formaat van NVIDIA. Dit biedt twee cruciale voordelen:
- Hogere kwaliteit: Behoud van modelnauwkeurigheid terwijl de benodigde geheugenbandbreedte en opslag worden verminderd.
- Productie-pariteit: Gebruikers kunnen dezelfde resultaten behalen als in een professionele productieomgeving, inclusief ondersteuning voor modellen die zijn geoptimaliseerd met de NVIDIA model optimizer.
3. Geavanceerde Caching en Efficiëntie
De cache-structuur van Ollama is volledig vernieuwd om agentic taken en coderen soepeler te maken:
- Lager geheugengebruik: De cache wordt hergebruikt over verschillende gesprekken heen.
- Intelligente Checkpoints: Ollama slaat snapshots van de cache op bij strategische punten in de prompt, wat de verwerkingstijd verkort.
- Slimmere Evictie: Gedeelde prefixes blijven langer in het geheugen, zelfs als oude vertakkingen worden verwijderd.
Use Case: Waarom Ollama gebruiken?
Ollama is bij uitstek geschikt voor veeleisende taken op macOS waar lage latentie essentieel is:
- Coding Agents: Versnel tools zoals Claude Code, OpenCode, Codex of Pi. Met de nieuwe caching-mogelijkheden reageren deze agents vele malen sneller bij het gebruik van gedeelde systeem-prompts.
- Persoonlijke Assistenten: Applicaties zoals OpenClaw reageren dankzij de MLX-integratie vrijwel onmiddellijk op gebruikersinput.
- Lokaal Experimenteren: Ontwikkelaars kunnen modellen zoals Qwen3.5-35B draaien met parameters die specifiek zijn afgestemd op codeertaken, zonder afhankelijk te zijn van cloud-providers.
Hoe Ollama te gebruiken
Om aan de slag te gaan met de nieuwste preview van Ollama, heeft u een Mac nodig met minimaal 32GB unified memory. Volg deze stappen om specifieke modellen te lanceren:
Voor Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
Voor OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
Direct chatten met het model:
ollama run qwen3.5:35b-a3b-coding-nvfp4
Veelgestelde Vragen (FAQ)
Op welke apparaten werkt de nieuwe Ollama-versnelling?
De versnelling is specifiek ontworpen voor Apple Silicon. Hoewel alle Apple Silicon-chips verbeteringen zullen zien, zijn de meest significante prestatiewinsten (gebruikmakend van GPU Neural Accelerators) merkbaar op de M5-serie (M5, M5 Pro en M5 Max).
Wat is het voordeel van NVFP4 boven andere formaten?
NVFP4 stelt Ollama in staat om de nauwkeurigheid van het model hoog te houden terwijl de belasting op het systeemgeheugen wordt beperkt. Dit zorgt voor een perfecte balans tussen snelheid en de kwaliteit van de antwoorden.
Kan ik mijn eigen fine-tuned modellen gebruiken?
Ja, Ollama breidt de ondersteuning voor verschillende architecturen constant uit. Er wordt gewerkt aan een eenvoudigere manier om aangepaste modellen die op ondersteunde architecturen zijn getraind, te importeren.
Is Ollama 0.19 al stabiel?
De MLX-aangedreven versie is momenteel in preview. Dit betekent dat het de snelste manier is om Ollama te draaien, maar dat er continu updates plaatsvinden om de stabiliteit en ondersteuning voor toekomstige modellen te verbeteren.








