英伟达发布Nemotron 3 Super:1200亿参数混合模型,融合三大架构提升企业级AI效率
英伟达(Nvidia)今日发布了Nemotron 3 Super,一个1200亿参数的混合模型,其权重已在Hugging Face上公布。该模型旨在解决多智能体系统在处理长周期任务时产生的巨大token量所带来的成本效益挑战。Nemotron 3 Super通过融合状态空间模型、Transformer和一种新型“潜在”专家混合(LatentMoE)设计,力求在提供智能体工作流所需专业深度的同时,避免传统密集推理模型的臃肿。其核心采用混合Mamba-Transformer骨干网络,结合Mamba-2层和Transformer注意力层,并引入LatentMoE,以提高内存效率和推理精度,尤其适用于企业级应用。
多智能体系统旨在处理软件工程或网络安全分类等长周期任务,其生成的token量可达标准聊天的15倍,这对其处理企业任务的成本效益构成了威胁。但今天,英伟达(Nvidia)试图通过发布Nemotron 3 Super来解决这个问题。Nemotron 3 Super是一个1200亿参数的混合模型,其权重已在Hugging Face上公布。
通过融合不同的架构理念——状态空间模型、Transformer和一种新颖的“潜在”专家混合(LatentMoE)设计——英伟达正试图为智能体工作流提供所需的专业深度,同时避免传统密集推理模型常见的臃肿,并且所有这些都以大部分开放权重的方式提供,可供商业使用。
三重混合架构是Nemotron 3 Super的核心,它是一个复杂的架构三元组,平衡了内存效率和精确推理。该模型利用混合Mamba-Transformer骨干网络,将Mamba-2层与战略性的Transformer注意力层交错排列。
为了理解其对企业生产的影响,可以考虑“大海捞针”问题。Mamba-2层就像一个“快速通道”高速公路系统,以线性时间复杂度处理绝大多数序列处理。这使得模型能够维持一个巨大的100万token上下文窗口,而不会导致KV缓存的内存占用爆炸。然而,纯粹的状态空间模型通常在联想回忆方面表现不佳。为了解决这个问题,英伟达战略性地插入了Transformer注意力层作为“全局锚点”,确保模型能够精确检索深藏于代码库或一堆财务报告中的特定事实。
除了骨干网络,该模型还引入了潜在专家混合(LatentMoE)。传统的专家混合(MoE)设计将token以其完整的隐藏维度路由到专家,这在模型扩展时会产生计算瓶颈。LatentMoE通过投影到...