Ollama v0.19
Ollama на Apple Silicon с поддержкой MLX: ускорение локальных LLM и оптимизация NVFP4
Новая версия Ollama 0.19 теперь работает на базе MLX, фреймворка машинного обучения от Apple, обеспечивая беспрецедентную скорость работы нейросетей на чипах Apple Silicon. Обновление включает поддержку формата NVFP4 для повышения точности моделей, улучшенную систему кэширования для кодинг-агентов и оптимизацию под новые GPU нейронные ускорители M5. Узнайте, как Ollama ускоряет OpenClaw, Claude Code и работу с Qwen3.5 на macOS.
2026-04-03
--K
Ollama v0.19 Информация о продукте
Ollama на Apple Silicon: Революционное ускорение с фреймворком MLX
Ollama официально представляет предварительную версию своего программного обеспечения, работающего на базе MLX — специализированного фреймворка машинного обучения от Apple. Это обновление превращает Ollama в самый быстрый инструмент для запуска локальных языковых моделей на устройствах Apple Silicon, открывая новые горизонты производительности для разработчиков и исследователей ИИ.
Интеграция с MLX позволяет Ollama максимально эффективно использовать унифицированную архитектуру памяти macOS, что критически важно для работы с ресурсоемкими моделями.
Что такое Ollama?
Ollama — это передовая платформа для локального запуска больших языковых моделей (LLM), которая теперь получила глубокую оптимизацию под аппаратное обеспечение Apple. Благодаря переходу на MLX, Ollama обеспечивает прямой доступ к вычислительной мощности чипов серии M, позволяя запускать сложные нейросети прямо на вашем Mac без необходимости облачных вычислений.
Версия Ollama 0.19 ориентирована на максимальную производительность в таких задачах, как написание кода и работа автономных агентов. Теперь Ollama поддерживает новейшие методы квантования и интеллектуальное управление кэшем, что делает взаимодействие с ИИ мгновенным.
Ключевые особенности Ollama на базе MLX
Обновление приносит ряд значительных технологических улучшений, которые выделяют Ollama на фоне предыдущих решений.
Максимальная производительность на Apple Silicon
Ollama теперь задействует новые GPU нейронные ускорители в чипах Apple M5, M5 Pro и M5 Max. Это значительно сокращает время до получения первого токена (TTFT) и увеличивает общую скорость генерации (токены в секунду).
Поддержка формата NVFP4
Впервые в Ollama реализована поддержка формата NVIDIA NVFP4. Это позволяет:
- Сохранять высокую точность ответов модели.
- Снижать требования к пропускной способности памяти и объему хранилища.
- Добиваться паритета с промышленными средами исполнения, используя те же оптимизированные модели, что и в продакшене.
Интеллектуальное кэширование
Система кэширования в Ollama была полностью переработана для повышения отзывчивости:
- Повторное использование кэша: Ollama сохраняет контекст между диалогами, что снижает потребление памяти при использовании общих системных промптов.
- Умные чекпоинты: Ollama сохраняет снимки кэша в ключевых точках промпта, минимизируя время на повторную обработку текста.
- Стратегическое удаление: Общие префиксы хранятся в памяти дольше, даже если старые ветки диалога удаляются.
Сценарии использования (Use Case)
Ollama с поддержкой MLX идеально подходит для профессиональных задач, требующих высокой скорости обработки данных:
- Персональные ассистенты: Ускорение работы таких инструментов, как OpenClaw, обеспечивая мгновенную реакцию на запросы пользователя.
- Агенты для кодинга: Оптимизация работы с Claude Code, OpenCode, Codex или Pi. Благодаря улучшенному кэшированию, Ollama быстрее обрабатывает изменения в коде.
- Локальная разработка: Использование модели Qwen3.5-35B-A3B для написания и отладки кода с параметрами, специально настроенными для программирования.
- Продакшн-тестирование: Возможность запускать модели, оптимизированные с помощью NVIDIA model optimizer, прямо на Mac через Ollama.
Сравнение производительности
Согласно тестам, проведенным в марте 2026 года, Ollama 0.19 демонстрирует впечатляющий отрыв от предыдущей версии 0.18 при работе с моделью Qwen3.5-35B-A3B:
- Скорость префилла (Prefill): Увеличение с 1154 до 1810-1851 токенов/с.
- Скорость декодирования (Decode): Увеличение с 58 до 112-134 токенов/с.
Эти данные подтверждают, что Ollama на базе MLX является наиболее эффективным способом запуска LLM на macOS.
Как использовать Ollama (How to Use)
Для работы с новой версией Ollama 0.19 вам потребуется Mac с чипом Apple Silicon и объемом унифицированной памяти более 32 ГБ.
Запуск Claude Code через Ollama:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
Запуск OpenClaw через Ollama:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
Обычный запуск модели для чата:
ollama run qwen3.5:35b-a3b-coding-nvfp4
FAQ (Часто задаваемые вопросы)
В: Какие модели поддерживает Ollama на данный момент? О: Текущий релиз оптимизирован для модели Qwen3.5-35B-A3B с поддержкой NVFP4. Команда активно работает над расширением списка поддерживаемых архитектур.
В: Можно ли использовать кастомные модели в Ollama? О: Да, для пользователей с собственными дообученными моделями на поддерживаемых архитектурах скоро будет представлен упрощенный способ импорта в Ollama.
В: Почему важна поддержка NVFP4 в Ollama? О: Формат NVFP4 позволяет запускать высокоточные модели с меньшими затратами ресурсов, обеспечивая те же результаты, что и облачные провайдеры в производственных средах.
В: Работает ли Ollama на старых чипах Intel Mac? О: Данное обновление с поддержкой MLX и специфическими оптимизациями предназначено исключительно для устройств на базе Apple Silicon (серии M1, M2, M3, M4, M5).








