Ollama v0.19

Ollama auf Apple Silicon: Maximale Performance durch MLX-Integration und NVFP4-Unterstützung für lokale KI-Modelle

Einführung:

Ollama führt eine bahnbrechende Preview-Version ein, die speziell für Apple Silicon optimiert wurde. Durch die Integration von Apples MLX-Framework nutzt Ollama die Unified Memory Architecture sowie die GPU Neural Accelerators der M5-Chipgeneration (M5, M5 Pro, M5 Max) optimal aus. Dies führt zu massiven Geschwindigkeitsvorteilen bei der Token-Generierung und der Time to First Token (TTFT). Mit der Einführung des NVIDIA NVFP4-Formats bietet Ollama zudem eine höhere Antwortqualität bei reduziertem Speicherbedarf und sorgt für Produktionsparität. Erweiterte Caching-Strategien, intelligente Checkpoints und effizientes Memory-Management machen Ollama zur idealen Lösung für anspruchsvolle Aufgaben wie Coding-Agenten (Claude Code, OpenCode) und persönliche Assistenten (OpenClaw). Diese Version 0.19 markiert einen Meilenstein für lokale Inferenz auf macOS.

Hinzugefügt:

2026-04-03

Monatliche Besucher:

--K

Code und IT

Ollama v0.19 - AI Tool Screenshot and Interface Preview

Ollama v0.19 Produktinformationen

Ollama auf Apple Silicon: Revolutionäre Performance durch MLX und NVFP4

Die Welt der lokalen KI-Modelle erreicht mit der neuesten Version von Ollama einen neuen Meilenstein. In einer exklusiven Preview präsentiert Ollama den schnellsten Weg, KI-Modelle auf Apple Silicon auszuführen. Durch die tiefe Integration von MLX, dem spezialisierten Machine Learning Framework von Apple, wird die Hardware-Leistung von macOS-Geräten so effizient wie nie zuvor genutzt.

Was ist Ollama?

Ollama ist eine führende Plattform für das lokale Ausführen von großen Sprachmodellen (LLMs). Mit der neuesten Aktualisierung (Version 0.19) transformiert sich Ollama zu einem Kraftpaket für Apple Silicon. Durch die Nutzung der Unified Memory Architecture von Apple ermöglicht Ollama eine nahtlose Kommunikation zwischen CPU und GPU, was die Latenz drastisch reduziert. Ollama richtet sich an Entwickler und KI-Enthusiasten, die höchste Ansprüche an Geschwindigkeit, Datenschutz und Effizienz direkt auf ihrer eigenen Hardware stellen.

Features von Ollama auf Apple Silicon

Die neue Version von Ollama bringt zahlreiche technologische Neuerungen mit sich, die speziell auf die Architektur von Apple zugeschnitten sind:

1. MLX-Unterstützung für Apple Silicon

Ollama basiert nun auf dem MLX-Framework. Dies erlaubt es Ollama, die GPU Neural Accelerators der neuesten Chip-Generationen, wie den M5, M5 Pro und M5 Max, voll auszuschöpfen. Dies führt zu einer signifikanten Beschleunigung der Time to First Token (TTFT) und der gesamten Generierungsgeschwindigkeit.

2. Extreme Performance-Steigerung

Im Vergleich zur Vorgängerversion 0.18 bietet Ollama 0.19 beeindruckende Leistungswerte:

Prefill-Performance: Steigerung von 1154 auf bis zu 1810 tokens/s (bzw. 1851 tokens/s bei Int4-Quantisierung).
Decode-Performance: Steigerung von 58 auf 112 tokens/s (bzw. 134 tokens/s bei Int4-Quantisierung).

3. NVFP4-Format Unterstützung

Ollama nutzt nun das NVFP4-Format von NVIDIA. Dies bietet zwei entscheidende Vorteile:

Höhere Qualität: Die Modellgenauigkeit bleibt erhalten, während der Speicherbedarf und die Bandbreite reduziert werden.
Produktionsparität: Nutzer erzielen mit Ollama dieselben Ergebnisse wie in einer skalierten Produktionsumgebung.

4. Verbessertes Caching-System

Das Caching in Ollama wurde grundlegend optimiert, um agentische Aufgaben effizienter zu gestalten:

Geringere Speicherauslastung: Cache wird über verschiedene Konversationen hinweg wiederverwendet.
Intelligente Checkpoints: Ollama speichert Snapshots an strategischen Punkten im Prompt, was die Verarbeitungszeit verkürzt.
Smarte Eviction: Häufig genutzte Präfixe bleiben länger im Speicher, selbst wenn ältere Zweige gelöscht werden.

Use Case: Einsatzgebiete für Ollama

Durch die massiven Geschwindigkeitsvorteile eignet sich Ollama hervorragend für zeitkritische und rechenintensive Anwendungen:

Coding-Agenten: Beschleunigen Sie Tools wie Claude Code, OpenCode, Codex oder Pi. Dank des verbesserten Caches reagieren diese Agenten nahezu ohne Verzögerung.
Persönliche Assistenten: Anwendungen wie OpenClaw profitieren von der schnellen Inferenz und bieten eine flüssige Benutzererfahrung.
Lokale Inferenz: Führen Sie Modelle wie Qwen3.5-35B-A3B lokal aus, ohne auf Cloud-Ressourcen angewiesen zu sein, und bewahren Sie die volle Kontrolle über Ihre Daten.

How to Use: So starten Sie mit Ollama

Um die Preview von Ollama auf Ihrem Mac zu nutzen, sollten Sie sicherstellen, dass Ihr System über mindestens 32 GB Unified Memory verfügt.

Installation und Start

Laden Sie Ollama 0.19 herunter und nutzen Sie die folgenden Befehle im Terminal, um optimierte Modelle zu starten:

Claude Code starten: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw starten: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

Direkter Chat mit dem Modell: ollama run qwen3.5:35b-a3b-coding-nvfp4

FAQ - Häufig gestellte Fragen

Welche Hardware wird für die neue Ollama Version empfohlen? Für eine optimale Performance, insbesondere mit dem Qwen3.5-35B Modell, wird ein Mac mit Apple Silicon und mehr als 32 GB Unified Memory empfohlen. Die volle Beschleunigung wird auf M5, M5 Pro und M5 Max Chips erreicht.

Was ist der Vorteil von NVFP4 in Ollama? NVFP4 ermöglicht eine hohe Modellgenauigkeit bei geringerem Speicherverbrauch. Es erlaubt Ollama-Nutzern zudem, Modelle zu verwenden, die mit dem NVIDIA Model Optimizer optimiert wurden, und sorgt für konsistente Ergebnisse wie in professionellen Produktionsumgebungen.

Unterstützt Ollama auch eigene, feinabgestimmte Modelle? Ja, Ollama arbeitet aktiv daran, die Liste der unterstützten Architekturen zu erweitern. In Zukunft wird es noch einfachere Wege geben, eigene Fine-Tuned-Modelle in Ollama zu importieren.

Wie verbessert Ollama die Effizienz bei Coding-Aufgaben? Durch intelligentes Caching und die Wiederverwendung von System-Prompts (Shared Prefixes) reduziert Ollama die notwendige Rechenlast bei wiederholten Anfragen, wie sie bei Coding-Agenten wie Claude Code üblich sind.

Alternatives Tools

Open Vibe

Open Vibe: Kostenloser KI-Tutor und Open-Source-Assistent für die professionelle SaaS-Entwicklung und den Aufbau moderner Web-Applikationen.

Open Vibe ist ein innovatives, 100% kostenloses Open-Source-Tool, das KI-Agenten wie Claude Code in hochfunktionale SaaS-Tutoren verwandelt. Es ermöglicht Gründern und Entwicklern, eigene SaaS-Ideen umzusetzen und dabei die zugrunde liegenden Systeme tiefgreifend zu verstehen. Durch interaktive Diagramme, eine strukturierte Roadmap in zwei Phasen und die Integration des Open SaaS Templates bricht Open Vibe die ineffektive Prompt-Fix-Endlosschleife auf. Nutzer behalten die volle Kontrolle über ihren Code, da alles lokal auf der eigenen Maschine läuft. Ohne Registrierung und unter der MIT-Lizenz bietet Open Vibe einen klaren Lehrplan, der über zehn Wochen hinweg die wesentlichen Aspekte von Datenbanken, Authentifizierung und Payment-Integration abdeckt.

Code und IT

display.dev

display.dev: Gated Publishing Engine für KI-generierte HTML-Artefakte mit SSO-Schutz

display.dev ist eine hochspezialisierte Gated Publishing Engine für KI-generierte Artefakte wie HTML-Reports, Dashboards und Dokumentationen. Die Plattform ermöglicht es Entwicklern, die von Agenten wie Claude Code oder Cursor erstellten interaktiven Dateien sicher hinter einer Unternehmens-Authentifizierung (Google oder Microsoft SSO) zu hosten. Mit Funktionen wie permanenten URLs, unbegrenzten Viewern zum Festpreis und einer tiefen Integration via CLI und MCP löst display.dev das Problem des unsicheren oder komplizierten Teilens von KI-Ergebnissen. Im Gegensatz zu herkömmlichen Hosting-Lösungen bietet display.dev eine bidirektionale Feedback-Schleife, durch die Agenten Inline-Kommentare direkt verarbeiten können, was die Zusammenarbeit zwischen Mensch und KI radikal vereinfacht.

Code und IT

Graphbit PRFlow

PRFlow: Der führende KI-Reviewer für automatisierte Sicherheitsanalysen und effiziente Pull Request Reviews.

PRFlow ist ein spezialisierter KI-Reviewer, der Sicherheitslücken in Pull Requests erkennt, die herkömmliche Tools übersehen. Durch die Analyse von Cross-File-Abhängigkeiten und ein tiefes Verständnis der Codebase liefert PRFlow in unter drei Minuten präzise, strukturierte Sicherheitsbewertungen. Die Lösung lernt kontinuierlich aus Team-Feedback, unterstützt acht Programmiersprachen und lässt sich nahtlos in GitHub integrieren, ohne die CI/CD-Pipeline zu belasten. Mit einem flexiblen, nutzungsbasierten Preismodell bietet PRFlow eine skalierbare Lösung für moderne Entwicklerteams.

Code und IT

Atomic Mail

Atomic Mail: Sicherer, verschlüsselter E-Mail-Service für maximale Privatsphäre und Datenschutz mit modernster KI-Unterstützung.

Atomic Mail setzt neue Maßstäbe für E-Mail-Sicherheit durch Ende-zu-Ende-Verschlüsselung, Blockchain-Technologie und Zero-Access-Verschlüsselung. Schützen Sie Ihre persönlichen Daten, Dokumente und Bankdaten vor den Zugriffen großer Tech-Konzerne. Mit Funktionen wie Hide-my-email, Alias-Verwaltung und einem leistungsstarken KI-Schreibassistenten bietet Atomic Mail eine produktive und zugleich private Kommunikationsumgebung. Vollständig DSGVO-konform, werbefrei und plattformübergreifend auf Windows, macOS, iOS und Android verfügbar – die ideale Lösung für alle, die Wert auf echte digitale Souveränität legen.

Code und IT

Superset 2.0

Superset: Der ultimative Code-Editor für die parallele Orchestrierung von über 100 KI-Agenten

Superset ist ein revolutionärer Code-Editor, der speziell für die Ära der KI-Agenten entwickelt wurde. Er ermöglicht Entwicklern die parallele Steuerung von über 100 KI-Agenten, nutzt isolierte Git-Worktrees zur Vermeidung von Merge-Konflikten und bietet universelle Kompatibilität mit Tools wie Claude Code, Cursor und Gemini.

Code und IT

Waydev Agent

Waydev: Die führende Software Engineering Intelligence Plattform zur Optimierung von Entwicklerproduktivität, DORA-Metriken und KI-Impact im Jahr 2025.

Waydev ist die marktführende Software Engineering Intelligence Plattform, die Engineering-Leitern hilft, die Produktivität zu maximieren und den Impact von KI-Agenten zu messen. Durch die nahtlose Integration in Ihren bestehenden Tech-Stack – von Git-Plattformen bis hin zu CI/CD-Tools – liefert Waydev datenbasierte Einblicke in Echtzeit. Mit Funktionen wie DORA-Metriken, dem SPACE-Framework und speziellen Modulen für AI ROI ermöglicht Waydev eine Steigerung der Deployment-Geschwindigkeit um 32 % und eine Reduzierung des Code-Churns um 28 %. Vertrauen Sie auf eine von Y Combinator unterstützte Lösung, die von TechCrunch gefeiert und von G2 als Market Leader 2025 ausgezeichnet wurde. Optimieren Sie Ihren SDLC, verbessern Sie die Developer Experience (DX) und richten Sie Ihre Engineering-Arbeit präzise an den Geschäftsprioritäten aus.

Code und IT

Kilo Code v7 for VS Code

Kilo Code: Die fortschrittliche Open-Source-KI-Plattform für VS Code mit paralleler Agenten-Ausführung

Kilo Code ist eine leistungsstarke, neu gestaltete Erweiterung für Visual Studio Code, die auf einem portablen Kern basiert. Mit über 3 Millionen Downloads bietet Kilo Code innovative Funktionen wie parallele Subagenten, Git-Worktrees für isoliertes Arbeiten, native Inline-Code-Reviews und Zugriff auf über 500 KI-Modelle. Die SOC 2-konforme Plattform ermöglicht nahtlose Session-Kontinuität zwischen CLI, VS Code und Slack für professionelle Entwicklerteams.

Code und IT

Claude Code & Codex Usage Trading Cards by Rudel

Claude Code Wrapped: Die ultimative Analyse Ihrer Programmier-Performance und Token-Statistiken für Entwickler

Erfahren Sie alles über Claude Code Wrapped, das Analysetool für Ihre Coding-Historie. Basierend auf dem Profil von Jon Doe liefert dieser Bericht Einblicke in 219 Sessions, 1,9 Millionen Token und 156 genutzte Skills wie Refactoring. Optimieren Sie Ihre Repository-Interaktionen und kontrollieren Sie Ihre Kosten pro Commit mit präzisen Metriken.

Code und IT

Loading related products...