登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
Gitee AI
NEW
我知道了
查看详情
登录
注册
代码拉取完成,页面将自动刷新
开源项目
>
人工智能
>
大模型
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
41
Star
271
Fork
322
Ascend
/
MindSpeed
代码
Issues
28
Pull Requests
64
Wiki
统计
流水线
服务
Gitee Pages
JavaDoc
PHPDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
我知道了,不再自动展开
发行版
最新版
v1.0.0_core_r0.7.0
c8348de
2024-12-27 18:15
对比
v1.0.0_core_r0.7.0
郭鹏
### 一. 新增说明 #### 1. 新增特性 - 支持megatron core 0.7.0 - Gloo存档落盘优化 - 支持梯度累加matmul_add融合 - MoE支持permute/unpermute融合 - MoE支持grouped_matmul融合 - MoE支持TP拓展EP - 支持自定义空层操作 - 支持CP场景的EoD reset训练 - 并行策略自动搜索支持部分场景 ### 二、删除说明 #### 1. 删除特性 - 内存碎片优化 - TP重计算优化 ### 三、变更说明 无 ### 四、已知问题 无 ### 五、Bugfix 无 ### 六、特殊声明 无 ### 七、版本配套关系: PTA: 6.0.0-PyTorch2.1.0
最后提交信息为:
!1737
docs
v1.0.0_core_r0.6.0
6891dfa
2024-12-27 18:14
对比
v1.0.0_core_r0.6.0
郭鹏
### 一. 新增说明 #### 1. 新增特性 - Gloo存档落盘优化 - 支持梯度累加matmul_add融合 - MoE支持permute/unpermute融合 - MoE支持grouped_matmul融合 - MoE支持TP拓展EP - 支持自定义空层操作 - 支持CP场景的EoD reset训练 - 并行策略自动搜索支持部分场景 ### 二、删除说明 #### 1. 删除特性 - 内存碎片优化 - TP重计算优化 ### 三、变更说明 无 ### 四、已知问题 无 ### 五、Bugfix 无 ### 六、特殊声明 无 ### 七、版本配套关系: PTA: 6.0.0-PyTorch2.1.0
最后提交信息为:
!1738
docs
v1.0.RC3_core_r0.7.0
be07955
2024-10-29 09:37
对比
v1.0.RC3 core r0.7.0
Jializheng
**新增特性:** - 自定义空操作层 - nano-pipe流水线并行 - Norm重计算 - 重计算流水线独立调度 - swap-attention - TFLOPS计算
最后提交信息为:
!1168
[1.0.RC3_core_r0.7.0]bugfix:noop_layer设置为非首尾层
v1.0.RC3_core_r0.6.0
e2f87dc
2024-10-29 09:35
对比
v1.0.RC3 core r0.6.0
Jializheng
**新增特性:** - 自定义空操作层 - nano-pipe流水线并行 - Norm重计算 - 重计算流水线独立调度 - swap-attention - TFLOPS计算
最后提交信息为:
!1167
[1.0.RC3_core_r0.6.0]bugfix:noop_layer设置为非首尾层
v1.0.RC2
6ef21aa
2024-08-22 19:44
对比
v1.0.RC2
郭鹏
## Megatron-LM支持 - 对接 [NVIDIA Megatron Core 0.6.0](https://github.com/NVIDIA/Megatron-LM/tree/core_v0.6.0) - 支持 Megatron-LM 原生并行策略,例如: EP + TP + DP + SP + PP - 支持 Megatron-LM 分布式优化器 ## 算法方案 - MoE - 支持 Megatron-LM token dropless及Top-K路由的MoE方案 - 支持 DeepSpeed Capacity及Top1/Top2专家路由的MoE方案 ## 并行策略 - 长序列 - 支持负载均衡的RingAttention长序列并行 - 支持Ulysses长序列并行 - 支持Hybrid(RingAttention-Ulysses)混合长序列并行 ## 内存优化 - BF16参数副本复用 - Flash Attention中atten_mask压缩及归一 - 激活函数重计算(Prototype) ## 通信优化 - Token-dropless-MoE AllgatherDispatcher/AlltoAllDispatcher通信掩盖 - RingAttention长序列并行send/recv多流掩盖 - 流水并行(PP)send/recv多流掩盖 - MC2 TP通信计算融合(Prototype)( **仅支持CANN 8.0.RC2和Ascend HDK 24.1.RC2及以上版本** ) ## 计算优化 - Capacity MoE方案token重排性能优化 - 支持 rms_norm/swiglu/rotary_embedding算子融合 - Token-dropless-MoE token重排/反重排昇腾亲和优化 ## 融合算子 - 新增 npu_rotary_position_embedding融合算子 - 新增 ffn 融合算子(Prototype) - 新增 fusion_attention 融合算子(Prototype) - 新增 npu_mm_all_reduce_add_rms_norm 融合算子(Prototype) - 新增 npu_mm_all_reduce_add_rms_norm_ 融合算子(Prototype) - 新增 npu_grouped_mat_mul 融合算子(Prototype) - 新增 npu_grouped_mat_mul_all_reduce 融合算子(Prototype)
最后提交信息为:
!551
适配新版ROPE融合算子
下载
请输入验证码,防止盗链导致资源被占用
取消
下载
1
https://gitee.com/ascend/MindSpeed.git
git@gitee.com:ascend/MindSpeed.git
ascend
MindSpeed
MindSpeed
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
评论
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册