
MoE 训练到底是开 TP 还是 EP? - 知乎专栏
我的回答是,使用 EP 不会减少数据并行 (DP) 的数量,因为每个 EP 处理不同的数据。 而且,EP 和 TP 对通信的要求都很高,一般不会让 EP 和 TP 跨机。 根据我们的实验结果,EP 的吞吐量比 TP 更高。 当 EP 开启到 8 时,我们就不再使用 TP。 面试结束后,对这个问题进行了更深入的思考,觉得还有一些未考虑的细节值得分析。 翻了下 DeepSeek 的技术报告。 在 v1 中,他们使用了 PP、EP、TP 和 Zero1,而在 v2(236B 参数、21B 激活)中,配置为 8EP + 16PP(zero …
大规模分布式 AI 模型训练系列——专家并行 - CSDN博客
2024年9月21日 · 这篇文章中我们继续介绍 MoE 中经常使用的专家并行(Expert Parallelism,EP),以及 EP 中涉及的相关 All2All 操作和优化手段等。 AlltoAll 是集合通信库(比如 NCCL)中另一种常见的通信原语,用于多个设备之间进行 数据交换。 AlltoAlll 操作允许每个参与的设备将其本地数据分发到其他设备,同时从其他设备接收数据。 如下图所示是一种标准的 AlltoAll 操作,有 4 个 GPU,每个 GPU 包含 4 个数据。 通过 AlltoAll 操作之后每个设备都将 4 …
分析一下 EP 并行和 DeepSeek 开源的 DeepEP 代码 - 极术社区
1. EP 并行概念. DeepSeek MoE 的原理和演进在以前的一篇文章详细分析过 《详细谈谈 DeepSeek MoE 相关的技术发展》 Expert Parallelism(EP 并行)如下图所示: 在 DeepSeek-R1 推理过程中, 为什么要实现 EP 并行? 从系统的角度来看, 单个专家的参数数据量为 44MB,具体计算如下 …
LLM并行训练5-MoE并行 - SunStriKE - 博客园
2024年7月20日 · moe的主要原理是替换attention层后的MLP层, 通过将不同类型的token按照门控单元计算出的概率分配给最大概率处理的专家网络处理, 对比单一MLP更适合处理复杂多样化的数据集.
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference
2024年10月16日 · This paper introduces EPS-MoE, a novel expert pipeline scheduler for MoE that surpasses the existing parallelism schemes. Our approach optimizes the computation of MoE FeedForward Network (FFN) modules by dynamically selecting the best kernel implementation of GroupGemm and DenseGemm for different loads and adaptively overlapping these ...
DeepEP - DeepSeek 开源的专家并行通信库,专为 MoE 训练和推 …
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的开源 EP(专家并行)通信库。 提供了高吞吐量和低延迟的全对全 GPU 内核,支持节点内和节点间的 NVLink 和 RDMA 通信。
GitHub - deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel ...
DeepEP is a communication library tailored for Mixture-of-Experts (MoE) and expert parallelism (EP). It provides high-throughput and low-latency all-to-all GPU kernels, which are also as known as MoE dispatch and combine.
MoE并行策略在推理场景下的比较 - 知乎 - 知乎专栏
TLDR:对于MoE-part,尽量多使用EP,少使用TP;对于 Attention-part,DP越大总通信量越小,不过DP变大会导致TP减小,计算延迟会变高。 实际场景会发生负载不均衡的现象,需要根据实际情况(包括负载均衡策略、总卡数、显存限制、负载情况等)设计策略、选择并行参数。 MoE 训练到底是开 TP 还是 EP? - 知乎,好文章,推荐! 在看过这篇文章后想做一下个人总结,主要讨论TP和EP在推理场景下的优劣。 关注Attention和MoE的并行策略,MoE并行策略考虑EP …
MoE训练论文解读之Megablocks:打破动态路由限制 - 腾讯云
GPT-4用了Mixture-of-Experts(MoE)架构,引起了广泛关注。 然而,MoE训练并不是一项简单的任务,它面临着一些主要的挑战和难点: 1、动态 路由 限制:当前的框架对MoE层中的动态路由进行了限制,以满足现有软件和硬件的约束条件。 用户必须在计算中选择drop tokens或zero-padding,前者影响模型效果,后者浪费计算资源。 这种限制导致模型质量和硬件效率之间存在某种权衡,导致调参困难。 2、如果打破上述限制导致每个专家的负载动态变换,计算kernel和 …
SGLang 的 Expert Parallel 特性解读 - 极术社区 - 连接开发者与智能 …
SGLang EP MoE Kernel 实现 代码位置: https://github.com/sgl-project/sglang/blob/main/python/sglang/srt/layers/moe/ep_moe/kernels.py 再复述一次 EPMoE Layer 实现中的 forward 的主要流程,和本节要解析的 kernel 可以对应起来。