如何在本地运行 Google Gemma 4：LM Studio CLI 与 Claude Code 教程

本文详细介绍了如何在 macOS 环境下，通过 LM Studio 0.4.0 新推出的 llmster 和 lms 命令行工具，本地部署 Google Gemma 4 26B 模型。该模型采用混合专家（MoE）架构，在 M4 Pro 芯片上表现出色。文章探讨了本地运行 AI 模型的优势，包括零成本、隐私保护及低延迟，并分析了 Gemma 4 不同版本在硬件适配上的特性。

核心要点

工具更新：LM Studio 0.4.0 版本引入了全新的 llmster 和 lms 命令行界面（CLI），支持无头模式运行。
模型特性：Google Gemma 4 26B 采用混合专家（MoE）架构，每次前向传播仅激活 4B 参数，显著降低了硬件门槛。
性能表现：在配备 48GB 统一内存的 MacBook Pro M4 Pro 上，该模型推理速度可达每秒 51 个 token。
本地优势：本地运行可规避云端 API 的频率限制、使用成本、隐私风险及网络延迟问题。
集成应用：通过 LM Studio 提供的 API，可将本地 Gemma 4 模型集成至 Claude Code 等开发工具中使用。

详细分析

LM Studio 0.4.0 的技术突破

随着 LM Studio 0.4.0 的发布，开发者现在可以通过全新的 lms 命令行工具（CLI）和 llmster 实现更灵活的模型管理。这一更新允许用户在“无头模式”下运行本地推理服务器，不再依赖图形界面。通过这种方式，用户可以轻松地将本地运行的 Google Gemma 4 模型转化为标准 API 服务，从而供 Claude Code 等第三方编程辅助工具调用，极大地提升了开发工作流的自动化程度。

Gemma 4 的混合专家架构优势

Google Gemma 4 系列模型展现了极高的硬件适配灵活性。其中 26B 版本采用了复杂的混合专家（MoE）架构，拥有 128 个专家和 1 个共享专家，但每个 token 仅激活 8 个专家（约 3.8B 参数）。这种设计使得原本无法运行 26B 稠密模型的硬件也能流畅运行该模型。在实际测试中，搭载 M4 Pro 芯片和 48GB 内存的 MacBook Pro 能够实现 51 tokens/s 的生成速度，尽管在 Claude Code 环境下集成使用时可能会遇到明显的性能下降。

家族化模型矩阵与应用场景

Gemma 4 并非单一模型，而是一个涵盖多种硬件目标的家族。其中包括针对移动端优化的“E”系列（E2B、E4B），这些模型采用每层嵌入（Per-Layer Embeddings）技术，并支持音频输入。而最强大的 31B 稠密版本在 MMLU Pro 测试中得分 85.2%，在 AIME 2026 中得分 89.2%，代表了该系列的最强性能。对于开发者而言，选择 26B-A4B 版本是在模型能力与本地硬件资源消耗之间取得平衡的理想选择。

行业影响

该新闻标志着本地大模型（Local LLM）生态的进一步成熟。通过 LM Studio 等工具降低 CLI 部署门槛，使得开发者能够更简单地将高性能开源模型集成到日常编程工具链中。Google Gemma 4 的 MoE 架构证明了通过算法优化可以在消费级硬件上实现高性能推理，这将加速 AI 应用从云端向边缘端的迁移，强化数据隐私并降低初创企业的研发成本。

常见问题

为什么选择在本地运行 Gemma 4 而不是使用云端 API？

本地运行可以彻底解决云端 API 存在的调用频率限制（Rate limits）和持续产生的使用成本。同时，所有数据处理均在本地硬件完成，确保了隐私安全，且在无网络连接的情况下依然保持可用性。

Gemma 4 26B 模型对硬件的具体要求是什么？

根据原文测试，该模型在配备 48GB 统一内存的 MacBook Pro M4 Pro 上运行良好。由于其 MoE 架构每次仅激活约 4B 参数，它对计算资源的要求远低于同等规模的稠密模型，但在集成到特定工具（如 Claude Code）时可能会有性能波动。

Gemma 4 系列中的“E”版本模型有什么特殊之处？

“E”系列（如 E2B 和 E4B）专门针对设备端部署进行了优化，使用了每层嵌入技术。它们是该家族中唯一支持音频输入（如语音识别和翻译）的变体。

本地运行 Google Gemma 4：利用 LM Studio 命令行工具与 Claude Code 实现高效推理