MindSpeed 发行版 - Gitee.com

开源项目 > 人工智能 > 大模型 &&

v2.0.0_core_r0.8.0

2025-04-27 15:03

v2.0.0_core_r0.8.0

一. 新增说明

1. 新增特性

支持megatron core 0.8.0
支持非对齐TP（即Head num无法整除TP场景）
支持非对齐SP（即Sequence length无法整除TP场景）
支持非对齐Ulysses（即Sequence length无法整除Ulysses-CP场景）
PP支持多参数动态Shape
支持自适应HCCL BUFFER
支持DualPipeV（POC特性，即cut-in-half流水）
支持1F1B Overlap（Poc特性）
支持Swap Optimizer（Poc特性）

二、删除说明

无

三、变更说明

无

四、已知问题

无

五、Bugfix

无

六、特殊声明

无

最后提交信息为： !2192 兼容框架 runtime修复，多流算子修复，alltoall算子修复，对齐r0.8.0

v1.0.0_core_r0.7.0

2024-12-27 18:15

v1.0.0_core_r0.7.0

一. 新增说明

1. 新增特性

支持megatron core 0.7.0
Gloo存档落盘优化
支持梯度累加matmul_add融合
MoE支持permute/unpermute融合
MoE支持grouped_matmul融合
MoE支持TP拓展EP
支持自定义空层操作
支持CP场景的EoD reset训练
并行策略自动搜索支持部分场景

二、删除说明

1. 删除特性

内存碎片优化
TP重计算优化

三、变更说明

无

四、已知问题

无

五、Bugfix

无

六、特殊声明

无

七、版本配套关系：

PTA: 6.0.0-PyTorch2.1.0

最后提交信息为： !1737 docs

v1.0.0_core_r0.6.0

2024-12-27 18:14

v1.0.0_core_r0.6.0

一. 新增说明

1. 新增特性

Gloo存档落盘优化
支持梯度累加matmul_add融合
MoE支持permute/unpermute融合
MoE支持grouped_matmul融合
MoE支持TP拓展EP
支持自定义空层操作
支持CP场景的EoD reset训练
并行策略自动搜索支持部分场景

二、删除说明

1. 删除特性

内存碎片优化
TP重计算优化

三、变更说明

无

四、已知问题

无

五、Bugfix

无

六、特殊声明

无

七、版本配套关系：

PTA: 6.0.0-PyTorch2.1.0

最后提交信息为： !1738 docs

v1.0.RC3_core_r0.7.0

2024-10-29 09:37

v1.0.RC3 core r0.7.0

新增特性：

自定义空操作层
nano-pipe流水线并行
Norm重计算
重计算流水线独立调度
swap-attention
TFLOPS计算

最后提交信息为： !1168 [1.0.RC3_core_r0.7.0]bugfix:noop_layer设置为非首尾层

v1.0.RC3_core_r0.6.0

2024-10-29 09:35

v1.0.RC3 core r0.6.0

新增特性：

自定义空操作层
nano-pipe流水线并行
Norm重计算
重计算流水线独立调度
swap-attention
TFLOPS计算

最后提交信息为： !1167 [1.0.RC3_core_r0.6.0]bugfix:noop_layer设置为非首尾层

2024-08-22 19:44

Megatron-LM支持

对接 NVIDIA Megatron Core 0.6.0
支持 Megatron-LM 原生并行策略，例如： EP + TP + DP + SP + PP
支持 Megatron-LM 分布式优化器

算法方案

MoE
- 支持 Megatron-LM token dropless及Top-K路由的MoE方案
- 支持 DeepSpeed Capacity及Top1/Top2专家路由的MoE方案

并行策略

长序列
- 支持负载均衡的RingAttention长序列并行
- 支持Ulysses长序列并行
- 支持Hybrid(RingAttention-Ulysses)混合长序列并行

内存优化

BF16参数副本复用
Flash Attention中atten_mask压缩及归一
激活函数重计算(Prototype)

通信优化

Token-dropless-MoE AllgatherDispatcher/AlltoAllDispatcher通信掩盖
RingAttention长序列并行send/recv多流掩盖
流水并行（PP）send/recv多流掩盖
MC2 TP通信计算融合(Prototype)( 仅支持CANN 8.0.RC2和Ascend HDK 24.1.RC2及以上版本 )

计算优化

Capacity MoE方案token重排性能优化
支持 rms_norm/swiglu/rotary_embedding算子融合
Token-dropless-MoE token重排/反重排昇腾亲和优化

融合算子

新增 npu_rotary_position_embedding融合算子
新增 ffn 融合算子(Prototype)
新增 fusion_attention 融合算子(Prototype)
新增 npu_mm_all_reduce_add_rms_norm 融合算子(Prototype)
新增 npu_mm_all_reduce_add_rms_norm_ 融合算子(Prototype)
新增 npu_grouped_mat_mul 融合算子(Prototype)
新增 npu_grouped_mat_mul_all_reduce 融合算子(Prototype)

最后提交信息为： !551 适配新版ROPE融合算子

1

https://gitee.com/ascend/MindSpeed.git

git@gitee.com:ascend/MindSpeed.git

ascend

MindSpeed

MindSpeed