按照计划,DeepSeek 从昨天到今天又陆续公布了两个开源项目,再次引来开发者群体的一致好评。

其一是 DeepEP,首个用于 MoE 模型训练和推理的开源 EP 通信库;其二是 DeepGEMM,支持密集和 MoE 矩阵乘法运算的开源 FP8 通用矩阵乘法库。这两个开源项目都是针对 AI 模型(尤其是混合专家模型 MoE)优化的底层工具库。以下我们援引官方描述,为广大开发者们介绍下相关进展。

DeepEP优化通信效率,解决“沟通效率”问题

首先是 DeepEP ,该通信库的核心作用在于大幅优化 GPU 间的信息传输效率,我们来看看官方介绍中公布的特性。

这几个特性可以被总结为:

  1. 高效通信
    DeepEP 支持 NVLink 和 RDMA ,使得数据在节点内和跨节点通信传输时更快、更稳定。

  2. 资源灵活控制
    灵活调度 GPU 资源,让计算和通信任务得以同时进行。

  3. 原生支持 FP8
    结合低精度计算(FP8)优化通信流程。

  4. 计算核心的优化提升了处理速度

训练及推理预填充阶段的高吞吐量计算核心,推理解码阶段的低延迟计算核心。

DeepGEMM提升计算效率,让矩阵乘法“又快又省”

再来看看 DeepGEMM,它的主要优化目标是矩阵乘法,而矩阵乘法正是 AI 模型的核心运算,我们来看看官方介绍中公布的特性。

可以看出,DeepGEMM 是一款支持密集和 MoE 矩阵乘法运算的 FP8 GEMM 库,已为 V3/R1 的训练和推理提供了支持,在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。它的核心特性可以被归纳为以下两点:

  • 极简高效:设计注重简洁性,核心代码仅约300行,但性能却超越传统优化库。通过即时编译(JIT)技术,运行时自动生成最优代码,无需提前编译。

  • 支持多样化场景:支持普通 GEMM 以及 MoE GEMM。

更多信息请参见 GitHub 开源库。

降低 AI 计算门槛,七牛继续送福利

七牛云作为国内领先的一站式中立音视频云 + AI 服务提供商,凭借其强大的 AI 大语言模型推理服务,为企业提供高效、稳定、安全的 AI 应用场景支持。作为开源模型,DeepSeek-R1 效果比肩海外巨头的闭源模型,在推理效率、场景适配等多个维度上树立了新的标杆。此前,七牛云已经上线了满血版的 DeepSeek-R1 671b 全参模型和 DeepSeek-R1 蒸馏版模型,并支持一键部署到 GPU 云主机。