46 Star 319 Fork 406

Ascend/MindSpeed

郭鹏-gp513 郭鹏

一. 新增说明

1. 新增特性

  • 支持megatron core 0.8.0
  • 支持非对齐TP(即Head num无法整除TP场景)
  • 支持非对齐SP(即Sequence length无法整除TP场景)
  • 支持非对齐Ulysses(即Sequence length无法整除Ulysses-CP场景)
  • PP支持多参数动态Shape
  • 支持自适应HCCL BUFFER
  • 支持DualPipeV(POC特性,即cut-in-half流水)
  • 支持1F1B Overlap(Poc特性)
  • 支持Swap Optimizer(Poc特性)

二、删除说明

三、变更说明

四、已知问题

五、Bugfix

六、特殊声明

2024-12-27 18:15
郭鹏-gp513 郭鹏

一. 新增说明

1. 新增特性

  • 支持megatron core 0.7.0
  • Gloo存档落盘优化
  • 支持梯度累加matmul_add融合
  • MoE支持permute/unpermute融合
  • MoE支持grouped_matmul融合
  • MoE支持TP拓展EP
  • 支持自定义空层操作
  • 支持CP场景的EoD reset训练
  • 并行策略自动搜索支持部分场景

二、删除说明

1. 删除特性

  • 内存碎片优化
  • TP重计算优化

三、变更说明

四、已知问题

五、Bugfix

六、特殊声明

七、版本配套关系:

PTA: 6.0.0-PyTorch2.1.0

最后提交信息为: !1737docs
2024-12-27 18:14
郭鹏-gp513 郭鹏

一. 新增说明

1. 新增特性

  • Gloo存档落盘优化
  • 支持梯度累加matmul_add融合
  • MoE支持permute/unpermute融合
  • MoE支持grouped_matmul融合
  • MoE支持TP拓展EP
  • 支持自定义空层操作
  • 支持CP场景的EoD reset训练
  • 并行策略自动搜索支持部分场景

二、删除说明

1. 删除特性

  • 内存碎片优化
  • TP重计算优化

三、变更说明

四、已知问题

五、Bugfix

六、特殊声明

七、版本配套关系:

PTA: 6.0.0-PyTorch2.1.0

最后提交信息为: !1738docs
2024-10-29 09:37
Jializheng-jializheng Jializheng

新增特性:

  • 自定义空操作层
  • nano-pipe流水线并行
  • Norm重计算
  • 重计算流水线独立调度
  • swap-attention
  • TFLOPS计算
2024-10-29 09:35
Jializheng-jializheng Jializheng

新增特性:

  • 自定义空操作层
  • nano-pipe流水线并行
  • Norm重计算
  • 重计算流水线独立调度
  • swap-attention
  • TFLOPS计算
2024-08-22 19:44
郭鹏-gp513 郭鹏

Megatron-LM支持

  • 对接 NVIDIA Megatron Core 0.6.0
  • 支持 Megatron-LM 原生并行策略,例如: EP + TP + DP + SP + PP
  • 支持 Megatron-LM 分布式优化器

算法方案

  • MoE
    • 支持 Megatron-LM token dropless及Top-K路由的MoE方案
    • 支持 DeepSpeed Capacity及Top1/Top2专家路由的MoE方案

并行策略

  • 长序列
    • 支持负载均衡的RingAttention长序列并行
    • 支持Ulysses长序列并行
    • 支持Hybrid(RingAttention-Ulysses)混合长序列并行

内存优化

  • BF16参数副本复用
  • Flash Attention中atten_mask压缩及归一
  • 激活函数重计算(Prototype)

通信优化

  • Token-dropless-MoE AllgatherDispatcher/AlltoAllDispatcher通信掩盖
  • RingAttention长序列并行send/recv多流掩盖
  • 流水并行(PP)send/recv多流掩盖
  • MC2 TP通信计算融合(Prototype)( 仅支持CANN 8.0.RC2和Ascend HDK 24.1.RC2及以上版本 )

计算优化

  • Capacity MoE方案token重排性能优化
  • 支持 rms_norm/swiglu/rotary_embedding算子融合
  • Token-dropless-MoE token重排/反重排昇腾亲和优化

融合算子

  • 新增 npu_rotary_position_embedding融合算子
  • 新增 ffn 融合算子(Prototype)
  • 新增 fusion_attention 融合算子(Prototype)
  • 新增 npu_mm_all_reduce_add_rms_norm 融合算子(Prototype)
  • 新增 npu_mm_all_reduce_add_rms_norm_ 融合算子(Prototype)
  • 新增 npu_grouped_mat_mul 融合算子(Prototype)
  • 新增 npu_grouped_mat_mul_all_reduce 融合算子(Prototype)
最后提交信息为: !551适配新版ROPE融合算子
1
https://gitee.com/ascend/MindSpeed.git
git@gitee.com:ascend/MindSpeed.git
ascend
MindSpeed
MindSpeed

搜索帮助