Ollama v0.19
Ollama auf Apple Silicon: Maximale Performance durch MLX-Integration und NVFP4-Unterstützung für lokale KI-Modelle
Ollama führt eine bahnbrechende Preview-Version ein, die speziell für Apple Silicon optimiert wurde. Durch die Integration von Apples MLX-Framework nutzt Ollama die Unified Memory Architecture sowie die GPU Neural Accelerators der M5-Chipgeneration (M5, M5 Pro, M5 Max) optimal aus. Dies führt zu massiven Geschwindigkeitsvorteilen bei der Token-Generierung und der Time to First Token (TTFT). Mit der Einführung des NVIDIA NVFP4-Formats bietet Ollama zudem eine höhere Antwortqualität bei reduziertem Speicherbedarf und sorgt für Produktionsparität. Erweiterte Caching-Strategien, intelligente Checkpoints und effizientes Memory-Management machen Ollama zur idealen Lösung für anspruchsvolle Aufgaben wie Coding-Agenten (Claude Code, OpenCode) und persönliche Assistenten (OpenClaw). Diese Version 0.19 markiert einen Meilenstein für lokale Inferenz auf macOS.
2026-04-03
--K
Ollama v0.19 Produktinformationen
Ollama auf Apple Silicon: Revolutionäre Performance durch MLX und NVFP4
Die Welt der lokalen KI-Modelle erreicht mit der neuesten Version von Ollama einen neuen Meilenstein. In einer exklusiven Preview präsentiert Ollama den schnellsten Weg, KI-Modelle auf Apple Silicon auszuführen. Durch die tiefe Integration von MLX, dem spezialisierten Machine Learning Framework von Apple, wird die Hardware-Leistung von macOS-Geräten so effizient wie nie zuvor genutzt.
Was ist Ollama?
Ollama ist eine führende Plattform für das lokale Ausführen von großen Sprachmodellen (LLMs). Mit der neuesten Aktualisierung (Version 0.19) transformiert sich Ollama zu einem Kraftpaket für Apple Silicon. Durch die Nutzung der Unified Memory Architecture von Apple ermöglicht Ollama eine nahtlose Kommunikation zwischen CPU und GPU, was die Latenz drastisch reduziert. Ollama richtet sich an Entwickler und KI-Enthusiasten, die höchste Ansprüche an Geschwindigkeit, Datenschutz und Effizienz direkt auf ihrer eigenen Hardware stellen.
Features von Ollama auf Apple Silicon
Die neue Version von Ollama bringt zahlreiche technologische Neuerungen mit sich, die speziell auf die Architektur von Apple zugeschnitten sind:
1. MLX-Unterstützung für Apple Silicon
Ollama basiert nun auf dem MLX-Framework. Dies erlaubt es Ollama, die GPU Neural Accelerators der neuesten Chip-Generationen, wie den M5, M5 Pro und M5 Max, voll auszuschöpfen. Dies führt zu einer signifikanten Beschleunigung der Time to First Token (TTFT) und der gesamten Generierungsgeschwindigkeit.
2. Extreme Performance-Steigerung
Im Vergleich zur Vorgängerversion 0.18 bietet Ollama 0.19 beeindruckende Leistungswerte:
- Prefill-Performance: Steigerung von 1154 auf bis zu 1810 tokens/s (bzw. 1851 tokens/s bei Int4-Quantisierung).
- Decode-Performance: Steigerung von 58 auf 112 tokens/s (bzw. 134 tokens/s bei Int4-Quantisierung).
3. NVFP4-Format Unterstützung
Ollama nutzt nun das NVFP4-Format von NVIDIA. Dies bietet zwei entscheidende Vorteile:
- Höhere Qualität: Die Modellgenauigkeit bleibt erhalten, während der Speicherbedarf und die Bandbreite reduziert werden.
- Produktionsparität: Nutzer erzielen mit Ollama dieselben Ergebnisse wie in einer skalierten Produktionsumgebung.
4. Verbessertes Caching-System
Das Caching in Ollama wurde grundlegend optimiert, um agentische Aufgaben effizienter zu gestalten:
- Geringere Speicherauslastung: Cache wird über verschiedene Konversationen hinweg wiederverwendet.
- Intelligente Checkpoints: Ollama speichert Snapshots an strategischen Punkten im Prompt, was die Verarbeitungszeit verkürzt.
- Smarte Eviction: Häufig genutzte Präfixe bleiben länger im Speicher, selbst wenn ältere Zweige gelöscht werden.
Use Case: Einsatzgebiete für Ollama
Durch die massiven Geschwindigkeitsvorteile eignet sich Ollama hervorragend für zeitkritische und rechenintensive Anwendungen:
- Coding-Agenten: Beschleunigen Sie Tools wie Claude Code, OpenCode, Codex oder Pi. Dank des verbesserten Caches reagieren diese Agenten nahezu ohne Verzögerung.
- Persönliche Assistenten: Anwendungen wie OpenClaw profitieren von der schnellen Inferenz und bieten eine flüssige Benutzererfahrung.
- Lokale Inferenz: Führen Sie Modelle wie Qwen3.5-35B-A3B lokal aus, ohne auf Cloud-Ressourcen angewiesen zu sein, und bewahren Sie die volle Kontrolle über Ihre Daten.
How to Use: So starten Sie mit Ollama
Um die Preview von Ollama auf Ihrem Mac zu nutzen, sollten Sie sicherstellen, dass Ihr System über mindestens 32 GB Unified Memory verfügt.
Installation und Start
Laden Sie Ollama 0.19 herunter und nutzen Sie die folgenden Befehle im Terminal, um optimierte Modelle zu starten:
Claude Code starten:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
OpenClaw starten:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
Direkter Chat mit dem Modell:
ollama run qwen3.5:35b-a3b-coding-nvfp4
FAQ - Häufig gestellte Fragen
Welche Hardware wird für die neue Ollama Version empfohlen? Für eine optimale Performance, insbesondere mit dem Qwen3.5-35B Modell, wird ein Mac mit Apple Silicon und mehr als 32 GB Unified Memory empfohlen. Die volle Beschleunigung wird auf M5, M5 Pro und M5 Max Chips erreicht.
Was ist der Vorteil von NVFP4 in Ollama? NVFP4 ermöglicht eine hohe Modellgenauigkeit bei geringerem Speicherverbrauch. Es erlaubt Ollama-Nutzern zudem, Modelle zu verwenden, die mit dem NVIDIA Model Optimizer optimiert wurden, und sorgt für konsistente Ergebnisse wie in professionellen Produktionsumgebungen.
Unterstützt Ollama auch eigene, feinabgestimmte Modelle? Ja, Ollama arbeitet aktiv daran, die Liste der unterstützten Architekturen zu erweitern. In Zukunft wird es noch einfachere Wege geben, eigene Fine-Tuned-Modelle in Ollama zu importieren.
Wie verbessert Ollama die Effizienz bei Coding-Aufgaben? Durch intelligentes Caching und die Wiederverwendung von System-Prompts (Shared Prefixes) reduziert Ollama die notwendige Rechenlast bei wiederholten Anfragen, wie sie bei Coding-Agenten wie Claude Code üblich sind.








