英伟达Nemotron 3 Super：1200亿参数混合AI模型，提升企业效率

英伟达发布Nemotron 3 Super：1200亿参数混合模型，融合三大架构提升企业级AI效率

英伟达（Nvidia）今日发布了Nemotron 3 Super，一个1200亿参数的混合模型，其权重已在Hugging Face上公布。该模型旨在解决多智能体系统在处理长周期任务时产生的巨大token量所带来的成本效益挑战。Nemotron 3 Super通过融合状态空间模型、Transformer和一种新型“潜在”专家混合（LatentMoE）设计，力求在提供智能体工作流所需专业深度的同时，避免传统密集推理模型的臃肿。其核心采用混合Mamba-Transformer骨干网络，结合Mamba-2层和Transformer注意力层，并引入LatentMoE，以提高内存效率和推理精度，尤其适用于企业级应用。

2026年3月11日 23:42

VentureBeat

多智能体系统旨在处理软件工程或网络安全分类等长周期任务，其生成的token量可达标准聊天的15倍，这对其处理企业任务的成本效益构成了威胁。但今天，英伟达（Nvidia）试图通过发布Nemotron 3 Super来解决这个问题。Nemotron 3 Super是一个1200亿参数的混合模型，其权重已在Hugging Face上公布。

通过融合不同的架构理念——状态空间模型、Transformer和一种新颖的“潜在”专家混合（LatentMoE）设计——英伟达正试图为智能体工作流提供所需的专业深度，同时避免传统密集推理模型常见的臃肿，并且所有这些都以大部分开放权重的方式提供，可供商业使用。

三重混合架构是Nemotron 3 Super的核心，它是一个复杂的架构三元组，平衡了内存效率和精确推理。该模型利用混合Mamba-Transformer骨干网络，将Mamba-2层与战略性的Transformer注意力层交错排列。

为了理解其对企业生产的影响，可以考虑“大海捞针”问题。Mamba-2层就像一个“快速通道”高速公路系统，以线性时间复杂度处理绝大多数序列处理。这使得模型能够维持一个巨大的100万token上下文窗口，而不会导致KV缓存的内存占用爆炸。然而，纯粹的状态空间模型通常在联想回忆方面表现不佳。为了解决这个问题，英伟达战略性地插入了Transformer注意力层作为“全局锚点”，确保模型能够精确检索深藏于代码库或一堆财务报告中的特定事实。

除了骨干网络，该模型还引入了潜在专家混合（LatentMoE）。传统的专家混合（MoE）设计将token以其完整的隐藏维度路由到专家，这在模型扩展时会产生计算瓶颈。LatentMoE通过投影到...

英伟达发布Nemotron 3 Super：1200亿参数混合模型，融合三大架构提升企业级AI效率

相关新闻

MiroFish：简洁通用的群体智能引擎，赋能万物预测

N.O.M.A.D项目：自给自足的离线生存计算机，集成AI与关键工具

LLM赋能软件开发：作者分享低缺陷率编程工作流与系统架构新重点