返回列表
DeepSeek 发布 DeepGEMM:支持细粒度缩放的高效 FP8 矩阵乘法内核库
开源项目DeepSeekAI算子库FP8

DeepSeek 发布 DeepGEMM:支持细粒度缩放的高效 FP8 矩阵乘法内核库

DeepSeek 官方在 GitHub 开源了 DeepGEMM 项目。这是一个专注于高性能计算的张量核心(Tensor Core)内核库,旨在为现代大语言模型提供核心计算原语。该库集成了高效且简洁的 FP8 GEMM 实现,并特别支持细粒度缩放技术,能够显著提升大模型在推理和训练中的计算效率。

GitHub Trending

核心要点

  • 高性能内核库:DeepGEMM 是一个统一的高性能张量核心(Tensor Core)内核库。
  • 核心计算原语:专注于大语言模型(LLM)中最关键的计算任务——GEMM(通用矩阵乘法)。
  • FP8 精度支持:实现了高效且简洁的 FP8 GEMM 内核,适应现代硬件加速需求。
  • 细粒度缩放:支持细粒度缩放(Fine-grained Scaling)技术,优化计算精度与性能的平衡。

详细分析

统一的高性能计算框架

DeepGEMM 由 deepseek-ai 开发并开源,其核心定位是为现代大语言模型提供底层计算支持。通过集成统一的张量核心内核,DeepGEMM 能够处理复杂的矩阵运算。作为 LLM 计算的基础,GEMM 的效率直接决定了模型的推理速度和训练成本,DeepGEMM 的出现旨在通过优化内核设计来最大化硬件性能。

FP8 精度与细粒度缩放的结合

在当前的 AI 计算趋势中,FP8(8位浮点数)因其在保持足够精度的同时能显著降低带宽和计算开销而备受关注。DeepGEMM 不仅实现了高效的 FP8 GEMM 内核,还引入了细粒度缩放技术。这种技术允许在计算过程中进行更精确的数值调整,从而在低精度计算中尽可能减少精度损失,确保大模型在高效运行的同时保持输出质量。

行业影响

DeepGEMM 的开源标志着大模型底层算子库的进一步透明化和优化。对于 AI 行业而言,DeepSeek 提供的这一工具能够帮助开发者更有效地利用现代 GPU 的 FP8 计算能力,降低大语言模型的部署门槛。通过提供简洁且高效的内核实现,它为追求极致性能的 LLM 研发团队提供了重要的技术参考和基础设施支持。

常见问题

DeepGEMM 主要解决什么问题?

DeepGEMM 主要解决大语言模型中 GEMM(通用矩阵乘法)计算的效率问题,特别是针对 FP8 精度下的高性能实现和细粒度缩放支持。

谁可以从 DeepGEMM 中受益?

从事大语言模型训练、推理优化以及高性能计算(HPC)内核开发的工程师和研究人员可以利用该库提升其模型的计算性能。

相关新闻

LongCat-Flash-Prover:美团开源数学定理证明模型,实现从“猜答案”到“严谨证明”的跨越
开源项目

LongCat-Flash-Prover:美团开源数学定理证明模型,实现从“猜答案”到“严谨证明”的跨越

美团技术团队正式开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型旨在解决AI在数学推理中仅能“答对数值”而缺乏严谨逻辑链条的问题。通过强化逻辑严密性,LongCat-Flash-Prover推动AI从模糊的自然语言推理转向形式化的严谨证明,为复杂推理课题提供了新的解决方案,标志着AI在处理高难度逻辑任务方面取得重要进展。

美团开源WBench:首个交互式视频世界模型多轮评测基准,探索AI交互边界
开源项目

美团开源WBench:首个交互式视频世界模型多轮评测基准,探索AI交互边界

美团LongCat团队正式开源了WBench,这是全球首个针对交互式视频世界模型的系统性多轮评测基准。WBench被形象地比作“CT扫描仪”,旨在精准评估和定位世界模型在从传统的“被动观看”模式向“主动交互”模式转型过程中的技术瓶颈与挑战,为提升AI对物理世界的理解与模拟能力提供了关键的度量工具。

美团开源原生多模态模型 LongCat-Next:赋能物理世界 AI 感知与理解
开源项目

美团开源原生多模态模型 LongCat-Next:赋能物理世界 AI 感知与理解

美团技术团队正式发布并开源了原生多模态模型 LongCat-Next 及其核心离散分词器。该模型是美团在通往物理世界 AI 道路上的重要探索,旨在通过将视觉和语音转化为 AI 的“母语”,提升模型对真实世界的感知与作用能力。此次开源包含模型核心与离散分词器,旨在助力开发者构建更具实操性的智能应用。