Ollama v0.19
Ollama na Apple Silicon z MLX: Przełomowa wydajność i akceleracja modeli AI
Odkryj nową erę lokalnego uruchamiania modeli językowych dzięki Ollama 0.19. Dzięki integracji z frameworkiem MLX od Apple, Ollama na Apple Silicon oferuje bezprecedensową szybkość generowania tokenów i efektywność pamięciową. Wykorzystaj pełną moc procesorów M5, format NVFP4 oraz inteligentne buforowanie, aby przyspieszyć pracę agentów kodujących i asystentów AI. Poznaj najszybszy sposób na uruchamianie zaawansowanych modeli takich jak Qwen3.5 na urządzeniach macOS.
2026-04-03
--K
Ollama v0.19 Informacje o produkcie
Ollama: Przełomowa wydajność na Apple Silicon dzięki frameworkowi MLX
Najnowsza aktualizacja Ollama wprowadza rewolucyjne zmiany dla użytkowników systemów macOS. Od 30 marca 2026 roku, Ollama jest oficjalnie napędzana przez MLX – autorski framework Apple dedykowany uczeniu maszynowemu. Ta integracja odblokowuje zupełnie nowy poziom wydajności, pozwalając na błyskawiczne działanie najbardziej wymagających narzędzi AI bezpośrednio na Twoim komputerze.
Czym jest Ollama?
Ollama to zaawansowane narzędzie umożliwiające lokalne uruchamianie dużych modeli językowych (LLM). W najnowszej wersji 0.19, Ollama została zoptymalizowana pod kątem architektury Apple Silicon, wykorzystując zunifikowaną architekturę pamięci oraz nowoczesne akceleratory GPU Neural Accelerators w czipach serii M5, M5 Pro i M5 Max. Dzięki temu Ollama staje się najszybszym i najbardziej efektywnym sposobem na pracę z modelami AI na systemie macOS.
Kluczowe cechy nowej wersji Ollama
Najwyższa wydajność z MLX
Dzięki oparciu Ollama na frameworku MLX, użytkownicy mogą cieszyć się ogromnym przyspieszeniem na wszystkich urządzeniach z procesorami Apple Silicon. Optymalizacja ta wpływa na dwa kluczowe parametry:
- TTFT (Time to First Token): Skrócenie czasu do pojawienia się pierwszego znaku.
- Szybkość generowania: Znacznie większa liczba tokenów na sekundę.
Według testów przeprowadzonych na modelu Qwen3.5-35B-A3B, Ollama 0.19 osiąga prędkość prefill na poziomie 1810 tokenów/s (w porównaniu do 1154 w wersji 0.18) oraz prędkość dekodowania na poziomie 112 tokenów/s (wzrost z 58 tokenów/s).
Wsparcie dla formatu NVFP4
Ollama wykorzystuje teraz format NVIDIA NVFP4. Pozwala to na:
- Zachowanie wysokiej dokładności odpowiedzi modelu.
- Zmniejszenie zapotrzebowania na przepustowość pamięci i miejsce na dysku.
- Osiągnięcie parytetu z wynikami produkcyjnymi dzięki kompatybilności z optymalizatorami modeli NVIDIA.
Inteligentne buforowanie (Improved Caching)
Mechanizm cache w Ollama został gruntownie przebudowany, co jest kluczowe dla zadań agentowych i programistycznych:
- Niższe zużycie pamięci: Cache jest współdzielony między konwersacjami.
- Inteligentne punkty kontrolne (Checkpoints): Przechowywanie migawek cache w strategicznych miejscach promptu skraca czas przetwarzania.
- Lepsze zarządzanie pamięcią: Współdzielone prefiksy są przechowywane dłużej, nawet przy usuwaniu starszych gałęzi konwersacji.
Scenariusze użycia (Use Case)
Nowa moc Ollama na Apple Silicon otwiera drzwi do profesjonalnych zastosowań, które wcześniej wymagały potężnych serwerów chmurowych:
- Agenci kodujący: Przyspiesz pracę z narzędziami takimi jak Claude Code, OpenCode, Codex czy Pi. Dzięki optymalizacji, agenci działają znacznie płynniej, szybciej analizując i generując kod.
- Personalni asystenci: Rozwiązania takie jak OpenClaw reagują teraz znacznie szybciej, oferując naturalną i dynamiczną interakcję.
- Praca lokalna z dużymi modelami: Możliwość uruchamiania zaawansowanych modeli jak Qwen3.5-35B w wysokiej jakości przy zachowaniu pełnej prywatności danych.
Jak korzystać z nowej wersji Ollama?
Aby w pełni wykorzystać potencjał wersji preview, należy posiadać komputer Mac z procesorem Apple Silicon oraz minimum 32GB zunifikowanej pamięci.
Uruchamianie Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
Uruchamianie OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
Bezpośredni czat z modelem:
ollama run qwen3.5:35b-a3b-coding-nvfp4
FAQ - Najczęściej zadawane pytania
P: Czy Ollama 0.19 działa na starszych komputerach Mac z Intelem? O: Najnowsze optymalizacje opisane w tym artykule dotyczą architektury Apple Silicon i frameworku MLX, który jest dedykowany dla procesorów Apple.
P: Jakie modele są obecnie najlepiej zoptymalizowane pod MLX? O: Obecna wersja preview koncentruje się na modelu Qwen3.5-35B-A3B, który został dostrojony pod kątem zadań programistycznych.
P: Co daje format NVFP4 w Ollama? O: NVFP4 pozwala na uruchamianie modeli o wysokiej precyzji przy mniejszym obciążeniu sprzętowym, co przekłada się na wyższą jakość odpowiedzi bez konieczności posiadania ogromnej ilości pamięci VRAM.
P: Czy mogę zaimportować własne modele do Ollama? O: Tak, zespół Ollama pracuje nad ułatwieniem importu własnych modeli fine-tuned na wspieranych architekturach, a lista obsługiwanych modeli będzie stale rozszerzana.








