Mellum by JetBrains
JetBrains Mellum:专为开发者打造的超低延迟高性能开源混合专家模型
Mellum 是由 JetBrains 开发的开源大语言模型(LLM)家族,旨在优化真实世界的开发工作流。通过先进的混合专家(MoE)架构,Mellum 在保证强大代码生成与语言理解能力的同时,实现了极低的推理延迟和极高的吞吐量。Mellum2 拥有 12B 参数,其推理速度比同类模型快一倍,成本却仅需一半。它支持本地和云端部署,为 AI/ML 工程师提供了兼具灵活性、透明度与卓越性能的生产级 AI 解决方案。
2026-06-22
--K
Mellum by JetBrains 产品信息
Mellum:JetBrains 推出的超低延迟高性能开源 LLM
在当今快速发展的 AI 领域,开发者和研究人员不断寻求在性能、延迟与成本之间达成完美平衡。JetBrains 隆重推出了 Mellum,这是一个专为真实世界开发工作流优化的开源大语言模型(LLM)家族。Mellum 的出现,标志着 AI 推理进入了超低延迟和高性能的新时代,特别适用于那些对响应速度有极高要求的生产环境。
什么是 Mellum?
Mellum 是由 JetBrains 开发的一系列快速语言模型,专门针对代码理解、上下文感知以及高性能推理而设计。作为一款开源 LLM,Mellum 旨在解决开发工作流中常见的延迟痛点。它不仅仅是一个简单的代码补全工具,更是一个能够理解编程意图并支持自然语言任务的综合性模型。
Mellum 家族目前包含多个版本,其中最受关注的是 Mellum2。这是一款拥有 12B(120亿)参数 的开源混合专家(Mixture-of-Experts, MoE)模型。它为实时工作流量身定制,将强大的编码能力与卓越的运行效率相结合,为从实验阶段转向生产阶段的团队提供了理想的选择。
Mellum 的核心特性 (Features)
极致的推理速度与 MoE 架构
Mellum 采用先进的 混合专家 (MoE) 架构,这是其实现超低延迟设计的核心。相比于同类规模的模型,Mellum 的推理速度和吞吐量通常能达到其两倍。通过将 MoE 架构引入较小的模型类别,Mellum 能够在不牺牲性能的前提下,极大地提升响应效率,确保在实时交互场景中表现优异。
专为真实 AI 开发流打造
Mellum 在训练时深入考虑了代码、上下文和意图。它扩展了模型在纯代码补全之外的能力,能够同时支持复杂的自然语言任务和多语言编程任务。无论是在 IDE 中进行代码生成,还是在复杂的 AI 工作流中处理逻辑,Mellum 都能提供精准的反馈。
更高的性能,更低的成本
得益于其高效的参数利用率,Mellum 在保持强大编码质量的同时,成功将推理成本降低了一半。由于每次请求激活的参数更少,计算资源得到了更充分的利用。这使得企业和开发者能够以更经济的方式运行大规模 AI 应用。
灵活可靠的部署方案
Mellum 经过透明数据的训练,并针对一致性进行了对齐。它赋予了用户充分的控制权,支持本地部署或云端部署。这意味着开发者可以根据隐私、性能和基础设施的需求,自由选择模型的运行方式,并进行针对性的微调。
Mellum 系列模型介绍
Mellum2:低延迟推理的标杆
- 定位:最适合需要极低延迟和高性能推理的场景。
- 规格:12B 参数的开源 MoE 模型。
- 优势:专为实时工作流设计,平衡了强大的编码能力与极高的运行效率,是现代 AI 应用的首选。
Mellum1:高效代码生成的专家
- 定位:最适合高质量的代码生成任务。
- 优势:作为一款开源编码模型,Mellum1 具备广泛的代码理解能力,支持跨多种编程语言的代码补全,是提升开发效率的利器。
Mellum 的典型应用场景 (Use Case)
1. 路由与编排 AI 工作负载
Mellum 可以作为智能调度器,分析输入的提示词(Prompts),并根据具体用例和需求,在不同的模型之间进行智能路由。这种快速的分析能力确保了每个任务都能分配到最合适的处理模型。
2. 低延迟 RAG 检索增强生成管道
在问答系统中,速度至关重要。Mellum 能够快速检索相关信息并生成摘要响应,极大地缩短了 RAG (Retrieval-Augmented Generation) 管道的等待时间,使系统反馈更加灵敏。
3. 复杂工作流中的快速子代理 (Sub-agents)
在复杂的 AI 代理管道中,任务通常被分解为上下文收集、规划和验证等步骤。Mellum 非常适合担任这些专门化的子代理,替代笨重的大型模型来执行特定步骤,从而显著提升整体流水线的运行速度。
4. 私有化与本地 AI 使用
对于对数据隐私有极高要求的组织,Mellum 支持本地部署或自托管。这使得代码和数据完全处于用户的控制之下,满足私有化部署和主权 AI 的使用需求。
常见问题解答 (FAQ)
问:什么是 Mellum? 答:Mellum 是由 JetBrains 开发的一系列开源快速语言模型,旨在为真实世界的开发工作流提供低延迟、高吞吐量的推理支持,尤其擅长处理代码和编程任务。
问:最新的 Mellum2 与之前版本有何不同? 答:Mellum2 采用了 12B 参数的混合专家 (MoE) 架构。相比前代或同类模型,它在保持高质量输出的同时,显著提升了推理速度并降低了成本,特别优化了实时工作流的体验。
问:为什么不直接使用 GPT 这样的大型模型? 答:并不是所有任务都需要最复杂或规模最大的模型。Mellum 专注于性能、延迟和成本的优化。对于需要快速响应和高频交互的开发任务,Mellum 提供了比大型通用模型更具性价比和速度优势的选择。
问:Mellum 的成本效率体现在哪里? 答:通过 MoE 架构,Mellum 在每次请求时仅激活部分参数,结合高效的计算利用率,使其推理成本仅为同类模型的一半,同时保持了极高的性能水平。
问:Mellum 支持哪些语言? 答:Mellum 是一款多语言模型,支持多种主流编程语言的代码生成与理解,同时也具备出色的自然语言处理能力。
问:Mellum 是开源的吗? 答:是的,Mellum(包括 Mellum1 和 Mellum2)是开源模型,旨在为开发者提供透明、可控且灵活的 AI 构建基块。
Mellum 不仅仅是一个模型,它是为追求极致效率的开发者打造的生产力引擎。无论是集成到 IDE 中,还是作为后端 AI 服务的核心,Mellum 都能以其超凡的速度和性能,助您在 AI 时代的竞争中脱颖而出。








