Ollama v0.19
MLX搭載でApple Siliconでの動作が劇的に進化したOllama:次世代のローカルLLM実行環境
AppleのMLXフレームワークを採用し、Apple Silicon搭載Macでのパフォーマンスを極限まで引き出した最新のOllamaをご紹介します。M5チップのGPU Neural Acceleratorへの最適化やNVFP4フォーマットのサポートにより、Qwen3.5などの最新モデルがかつてない速度で動作。キャッシュ機能の改善でコーディングエージェントの効率も向上した、開発者必携のツールです。
2026-04-03
--K
Ollama v0.19 製品情報
Ollama:Apple SiliconとMLXの融合が実現するローカルLLMの最高速体験
2026年3月30日、OllamaはApple Silicon搭載Macにおいて、Apple独自の機械学習フレームワークであるMLXを活用したプレビュー版を公開しました。これにより、Appleデバイス上でのOllamaの実行速度は劇的に向上し、最も要求の厳しいAIワークフローをローカル環境で快適に処理することが可能になりました。
Ollamaとは?(What's Ollama)
Ollamaは、ローカル環境で大規模言語モデル(LLM)を簡単に実行・管理するための強力なプラットフォームです。今回のアップデートにより、OllamaはApple Siliconのユニファイドメモリ・アーキテクチャを最大限に活用できるよう設計が刷新されました。
特に、最新のApple M5、M5 Pro、M5 Maxチップに搭載された新しいGPU Neural Accelerator(GPUニューラルアクセラレータ)をフル活用することで、Ollamaは推論の初期応答時間(TTFT)と生成速度(トークン/秒)の両方で圧倒的なパフォーマンスを実現しています。
Ollamaの主要機能(Features)
1. MLXによるApple Siliconへの最適化
Ollama 0.19では、バックエンドにAppleのMLXフレームワークを採用しました。これにより、旧バージョンと比較して以下のような大幅な高速化を達成しています(Qwen3.5-35B-A3Bモデルによる計測):
- プリフィル性能(Prefill Performance):
- Ollama 0.18: 1154 tokens/s
- Ollama 0.19: 1810 tokens/s(int4量子化では最大1851 tokens/s)
- デコード性能(Decode Performance):
- Ollama 0.18: 58 tokens/s
- Ollama 0.19: 112 tokens/s(int4量子化では最大134 tokens/s)
2. NVIDIA NVFP4フォーマットのサポート
Ollamaは、モデルの精度を維持しながらメモリ帯域幅とストレージ要件を削減するNVFP4フォーマットに対応しました。これにより、プロダクション環境と同等の高品質なレスポンスをローカルのOllama環境で再現できるようになります。また、NVIDIAのモデルオプティマイザーで最適化されたモデルの実行も可能になりました。
3. 進化したキャッシングシステム
コーディングやエージェント業務の効率化のため、Ollamaのキャッシュ機能が大幅に強化されました。
- メモリ利用率の低減: 会話間でキャッシュを再利用し、共有システムプロンプト利用時のメモリ消費を抑制します。
- インテリジェント・チェックポイント: プロンプトの適切な位置にキャッシュのスナップショットを保存し、再処理時間を短縮します。
- スマートな破棄アルゴリズム: 古いブランチが削除されても、共有プレフィックスをより長く保持します。
Ollamaの活用シーン(Use Case)
Ollamaの圧倒的なスピードは、特に以下のような対話型・自律型エージェントの利用で威力を発揮します。
- コーディングエージェントの高速化:
Claude Code、OpenCode、Codex、PiといったツールとOllamaを連携させることで、コード生成やリファクタリングの待ち時間が大幅に短縮されます。 - パーソナルアシスタント:
OpenClawのようなアシスタントが、MLXの力を借りてより人間味のある、リアルタイムに近い速度で応答します。 - プロダクション環境のシミュレーション: NVFP4のサポートにより、クラウドでの本番運用に近い環境をOllamaを使ってローカルで構築・テストできます。
Ollamaの使い方(How to Use)
今回のプレビューリリースでは、コーディングタスクに最適化された最新モデル「Qwen3.5-35B-A3B」を高速に実行できます。なお、本機能の利用には32GB以上のユニファイドメモリを搭載したMacを推奨します。
モデルの起動と実行
Claude Codeで使用する場合
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
OpenClawで使用する場合
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
モデルと直接チャットする場合
ollama run qwen3.5:35b-a3b-coding-nvfp4
よくある質問(FAQ)
Q: Ollama 0.19での主な変更点は何ですか? A: AppleのMLXフレームワークへの対応による劇的な高速化、NVFP4フォーマットのサポート、そしてキャッシュ機能の強化が主な変更点です。
Q: 自分のファインチューニングしたモデルをOllamaで使えますか? A: 現在、サポートされているアーキテクチャについては順次拡大中です。将来的には、カスタムモデルをより簡単にOllamaへインポートできる仕組みを導入する予定です。
Q: なぜ32GB以上のメモリが必要なのですか? A: Qwen3.5-35B-A3Bのような大規模なモデルを高品質な精度(NVFP4等)でスムーズに動作させるためには、Apple Siliconの広帯域なユニファイドメモリの容量が重要になるためです。
Q: MLX以外へのサポートはどうなっていますか? A: Ollamaは、MLXチーム、NVIDIA、GGML、llama.cpp、そしてAlibaba Qwenチームといった多くのパートナーとの協力により、幅広いハードウェアとアーキテクチャの最適化を継続しています。








