pytorch 发行版 - Gitee.com

v7.0.0-pytorch2.1.0

2025-04-25 16:53

一．新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增torch_npu_run支持分级tcpstore和建链
• Ascend Extension for PyTorch 新增支持devicemesh，原生allgather和reducescatter接口支持不等长输入输出
• Ascend Extension for PyTorch 新增支持通过pg_options配置hccl通信域参数
• Ascend Extension for PyTorch 支持硬件延时故障感知和恢复
2. 新增二进制包
• Ascend Extension for PyTorch 新增发布abi=1二进制包

二．删除说明
无

三. 变更说明
1．接口变更说明
• 新增npu_cross_entropy_loss、npu_advance_step_flashattn和npu_group_norm_swish等自定义算子API；npu_rotary_mul新增支持rotary_mode入参

四. 已知问题
无

五. Bugfix
• 修复AllGather入参为empty超时报错问题
• 修复HCCL_EVENT_TIMEOUT配置为0，op wait无法永不超时问题
• 修复alltoall算子临时tensor未释放内存上涨问题

六. 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• 本版本修复CVE-2025-32434漏洞

七.版本配套关系
MindSpeed-Core branch： [2.0.0_core_r0.8.0](https://gitee.com/ascend/MindSpeed/tree/2.0.0_core_r0.8.0/)
MindSpeed-MM branch： [2.0.0](https://gitee.com/ascend/MindSpeed-MM/tree/2.0.0/)
MindSpedd-LLM branch： [2.0.0](https://gitee.com/ascend/MindSpeed-LLM/tree/2.0.0/)
Driving SDK branch：[branch_v7.0.RC1](https://gitee.com/ascend/DrivingSDK/tree/branch_v7.0.RC1/)

最后提交信息为： !20666 update torchair commitid 2.1.0

v6.0.0-pytorch2.4.0

88dab78

2025-01-04 19:07

release v6.0.0-pytorch2.4.0

### 一 新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增细粒度绑核，进一步优化算子下发性能
• Ascend Extension for PyTorch 支持设备同步超时时间配置，提升训练灵活度和dfx能力
• Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率
• Ascend Extension for PyTorch 新增支持同步流下发接口，为训练任务卡住时提供逃生通道，保证ckpt能正常保存
• Ascend Extension for PyTorch 新增支持Atlas A3训练产品

### 二 删除说明
无

### 三 变更说明
1．接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持pg_options配置hccl通信参数hccl_buffer_size 
• 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream
• npu_dynamic_quant：新增可选入参group_index，dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise
• 新增环境变量ACL_DEVICE_SYNC_TIMEOUT，支持device同步超时手动配置
• 新增环境变量INF_NAN_MODE_FORCE_DISABLE，开启后强制关闭INF_NAN模式

### 四 已知问题
无

### 五 Bugfix
• 修复sendrecv初始化时卡死问题，支持P2P通信域独立建链
• 修复反向计算跨流计算的内存提前复用问题

### 六 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• Atlas A2训练产品/Atlas A3训练产品关闭INF_NAN模式会产生精度问题，所以强制拦截，若要强制关闭IF_NAN模式，则需开启环境变量INF_NAN_MODE_FORCE_DISABLE，但模型仍然可能会产生精度问题

最后提交信息为： !17180 [Bugfix] Copy operator misses memory_format.

v6.0.0-pytorch2.3.1

62e67c3

2025-01-04 19:06

release v6.0.0-pytorch2.3.1

### 一 新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增细粒度绑核，进一步优化算子下发性能
• Ascend Extension for PyTorch 支持设备同步超时时间配置，提升训练灵活度和dfx能力
• Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率
• Ascend Extension for PyTorch 新增支持同步流下发接口，为训练任务卡住时提供逃生通道，保证ckpt能正常保存
• Ascend Extension for PyTorch 新增支持Atlas A3训练产品

### 二 删除说明
无

### 三 变更说明
1．接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持pg_options配置hccl通信参数hccl_buffer_size 
• 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream
• npu_dynamic_quant：新增可选入参group_index，dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise
• 新增环境变量ACL_DEVICE_SYNC_TIMEOUT，支持device同步超时手动配置
• 新增环境变量INF_NAN_MODE_FORCE_DISABLE，开启后强制关闭INF_NAN模式

### 四 已知问题
无

### 五 Bugfix
• 修复sendrecv初始化时卡死问题，支持P2P通信域独立建链
• 修复反向计算跨流计算的内存提前复用问题

### 六 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• Atlas A2训练产品/Atlas A3训练产品关闭INF_NAN模式可能会产生精度问题，所以强制拦截，若要强制关闭IF_NAN模式，则需开启环境变量INF_NAN_MODE_FORCE_DISABLE，但模型仍然可能会产生精度问题

最后提交信息为： !17178 [Bugfix] Copy operator misses memory_format.

v6.0.0-pytorch2.1.0

cb73edf

2025-01-04 19:05

release v6.0.0-pytorch2.1.0

### 一 新增说明
1. 新增特性
• Ascend Extension for PyTorch 新增细粒度绑核，进一步优化算子下发性能
• Ascend Extension for PyTorch 支持设备同步超时时间配置，提升训练灵活度和dfx能力
• Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率
• Ascend Extension for PyTorch 新增支持同步流下发接口，为训练任务卡住时提供逃生通道，保证ckpt能正常保存
• Ascend Extension for PyTorch 新增支持Atlas A3训练产品

### 二 删除说明
无

### 三 变更说明
1．接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持pg_options配置hccl通信参数hccl_buffer_size 
• 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream
• npu_dynamic_quant：新增可选入参group_index，dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise
• 新增环境变量ACL_DEVICE_SYNC_TIMEOUT，支持device同步超时手动配置
• 新增环境变量INF_NAN_MODE_FORCE_DISABLE，开启后强制关闭INF_NAN模式

### 四 已知问题
无

### 五 Bugfix
• 修复sendrecv初始化时卡死问题，支持P2P通信域独立建链
• 修复反向计算跨流计算的内存提前复用问题

### 六 特殊声明
• 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用
• Atlas A2训练产品/Atlas A3训练产品关闭INF_NAN模式可能会产生精度问题，所以强制拦截，若要强制关闭IF_NAN模式，则需开启环境变量INF_NAN_MODE_FORCE_DISABLE，但模型仍然可能会产生精度问题

### 七 版本配套关系
MindSpeed-Core branch： [v1.0.0_core_r0.7.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.7.0), [v1.0.0_core_r0.6.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.6.0)
MindSpeed-MM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
MindSpedd-LLM branch： [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0)
Mxdriving branch：[branch_v6.0.0](https://gitee.com/ascend/mxDriving/releases/tag/branch_v6.0.0)

最后提交信息为： !17201 Dequeue does not need to wait for the empty semaphore when i...

预览版本

v6.0.0.alpha001-pytorch2.5.1

a3b75fc

2024-11-12 10:53

v6.0.0.alpha001-pytorch2.5.1

最后提交信息为： !15780 Update torchair commit id

v6.0.rc3-pytorch2.4.0

5762ec6

2024-10-29 14:52

release v6.0.rc3-pytorch2.4.0

最后提交信息为： !15546 add 8.0.T37,8.0.T38,8.0.T39 to foreach black list

v6.0.rc3-pytorch2.3.1

6ec1fd9

2024-10-29 14:49

release v6.0.rc3-pytorch2.3.1

最后提交信息为： !15545 add 8.0.T37,8.0.T38,8.0.T39 to foreach black list

v6.0.rc3-pytorch2.1.0

1fa937a

2024-10-29 14:28

release v6.0.rc3-pytorch2.1.0

### 新增特性
• Ascend Extension for PyTorch 新增一级流水优化，进一步优化下发性能
• Ascend Extension for PyTorch 新增支持foreach优化器，相比foreach性能有提升或不变
• Ascend Extension for PyTorch 支持基于ranktable file进行集合通信域建链，可缩短在大集群下通信域建链的耗时
• Ascend Extension for PyTorch 支持TCPStore建链优化，可缩短TCPStore建链的耗时

### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.conj、torch.polar接口，torch.isin新增支持双tensor输入
• npu_mm_all_reduce_base新增可选入参comm_quant_scale_1，comm_quant_scale_2
• 废弃接口npu_ifmr、npu_masked_fill_range、npu_normalize_batch、npu_rotated_box_decode、npu_rotated_box_encode、npu_scatter、npu_stride_add

### Bugfix
• 修复虚拟内存开启和单进程多卡功能无法共用问题，但需使用Ascend HDK 24.1.RC3及以上版本

### 特殊声明
虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用，其他版本不能共同使用

### 版本配套关系
MindSpeed branch：[v1.0.RC3_core_r0.6.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.6.0/)、[v1.0.RC3_core_r0.7.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.7.0)
MindSpeed-MM branch：[v1.0.RC3.0](https://gitee.com/ascend/MindSpeed-MM/tree/v1.0.RC3.0)
ModelLink branch：[v1.0.RC3.0](https://gitee.com/ascend/ModelLink/tree/v1.0.RC3.0)
Mxdriving branch：[branch_v6.0.0-RC3](https://gitee.com/ascend/mxDriving/tree/branch_v6.0.0-RC3)

最后提交信息为： !15544 add 8.0.T37,8.0.T38,8.0.T39 to foreach black list

v6.0.rc2.1-pytorch1.11.0

6a563e5

2024-09-23 15:48

release v6.0.rc2.1-pytorch1.11.0

最后提交信息为： !14715 modify version

v6.0.rc2.1-pytorch2.2.0

fd9c674

2024-09-23 15:43

release v6.0.rc2.1-pytorch2.2.0

最后提交信息为： !14707 modify version

v6.0.rc2.1-pytorch2.3.1

3d71a8b

2024-09-23 15:42

release v6.0.rc2.1-pytorch2.3.1

最后提交信息为： !14708 modify version

v6.0.rc2.1-pytorch2.1.0

617ae11

2024-09-23 15:41

release v6.0.rc2.1-pytorch2.1.0

最后提交信息为： !14709 modify version

预览版本

v6.0.rc3.alpha001-pytorch2.4.0

6e1b5d0

2024-08-12 10:36

v6.0.rc3.alpha001-pytorch2.4.0

最后提交信息为： !13546 [PROF] Npu profiler config compat for pytorch

v6.0.rc2-pytorch2.1.0

06cec48

2024-07-16 20:46

release v6.0.rc2-pytorch2.1.0

### 新增特性
• Ascend Extension for PyTorch 新增支持内存快照，辅助分析快速定位模型oom（out of memory）问题
• Ascend Extension for PyTorch 新增支持可独立配置event超时时间，区别HCCL notify wait超时时间，支撑模型 
  HCCL超时问题定位
• Ascend Extension for PyTorch 完成processgroup升级，reduce_scatter算子支持变长计算
• Ascend Extension for PyTorch 新增支持二进制开启时，支持多路径读取自定义算子库
• Ascend Extension for PyTorch 支持关闭内存池，在某些debug场景下，需排除NPU实现的内存池影响，可关闭内存复 
  用机制，实现完全依赖驱动内存申请和释放，辅助问题定位
• 新增支持matmul_double_backward
• 新增支持图模式部分特性
### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.argmax，torch.sort支持stable=True
• npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化
• npu_ffn 添加 expert_tokens_index 入参
• npu_dynamic_quant 添加 smooth_scales 入参
• npu_quantize 支持 Qint8 格式输入，并添加入参 div_mode
• npu_mm_all_reduce_base 添加 pertoken_sacle 入参
• npu_prompt_flash_attention 接口支持 bsnd 格式输出，不再支持通过 sparse 取值传入精度模式
• npu_fused_infer_attention_score 新增多个入参
### Bugfix
• 拦截一些不支持的reduce op
• 修复all_to_all_single和all_to_all_base接口的已知问题
• addmm、_coalesce_sparse、torch.tanh修复已知问题
### 特殊声明
dynamic_profile历史文档有误，正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html
### 版本配套关系
[MindSpeed branch：1.0.RC2（was previously 1.1）](https://gitee.com/ascend/MindSpeed/tree/1.0.RC2/)
[ModelLink branch：1.0.RC2（was previously 1.1）](https://gitee.com/ascend/ModelLink/tree/1.0.RC2/)
[Mxdriving branch：branch_v6.0.0-RC2](https://gitee.com/ascend/mxDriving/tree/branch_v6.0.0-RC2/)

最后提交信息为： !12969 回退 'Pull Request !12914 : Fix storage_resize_npu'

v6.0.rc2-pytorch2.3.1

756295d

2024-07-16 20:31

release v6.0.rc2-pytorch2.3.1

### 新增特性
• Ascend Extension for PyTorch 新增支持内存快照，辅助分析快速定位模型oom（out of memory）问题
• Ascend Extension for PyTorch 新增支持可独立配置event超时时间，区别HCCL notify wait超时时间，支撑模型 
  HCCL超时问题定位
• Ascend Extension for PyTorch 完成processgroup升级，reduce_scatter算子支持变长计算
• Ascend Extension for PyTorch 新增支持二进制开启时，支持多路径读取自定义算子库
• Ascend Extension for PyTorch 支持关闭内存池，在某些debug场景下，需排除NPU实现的内存池影响，可关闭内存复 
  用机制，实现完全依赖驱动内存申请和释放，辅助问题定位
• 新增支持matmul_double_backward
• 新增支持图模式部分特性
### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.argmax，torch.sort支持stable=True
• npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化
• npu_ffn 添加 expert_tokens_index 入参
• npu_dynamic_quant 添加 smooth_scales 入参
• npu_quantize 支持 Qint8 格式输入，并添加入参 div_mode
• npu_mm_all_reduce_base 添加 pertoken_sacle 入参
### Bugfix
• 拦截一些不支持的reduce op
• 修复all_to_all_single和all_to_all_base接口的已知问题
• addmm、_coalesce_sparse、torch.tanh修复已知问题
### 特殊声明
dynamic_profile历史文档有误，正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html

最后提交信息为： !12970 回退 'Pull Request !12916 : Fix storage_resize_npu'

v6.0.rc2-pytorch2.2.0

927a701

2024-07-16 20:30

release v6.0.rc2-pytorch2.2.0

### 新增特性
• Ascend Extension for PyTorch 新增支持内存快照，辅助分析快速定位模型oom（out of memory）问题
• Ascend Extension for PyTorch 新增支持可独立配置event超时时间，区别HCCL notify wait超时时间，支撑模型 
  HCCL超时问题定位
• Ascend Extension for PyTorch 完成processgroup升级，reduce_scatter算子支持变长计算
• Ascend Extension for PyTorch 新增支持二进制开启时，支持多路径读取自定义算子库
• Ascend Extension for PyTorch 支持关闭内存池，在某些debug场景下，需排除NPU实现的内存池影响，可关闭内存复 
  用机制，实现完全依赖驱动内存申请和释放，辅助问题定位
• 新增支持matmul_double_backward
• 新增支持图模式部分特性
### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.argmax，torch.sort支持stable=True
• npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化
• npu_ffn 添加 expert_tokens_index 入参
• npu_dynamic_quant 添加 smooth_scales 入参
• npu_quantize 支持 Qint8 格式输入，并添加入参 div_mode
• npu_mm_all_reduce_base 添加 pertoken_sacle 入参
### Bugfix
• 拦截一些不支持的reduce op
• 修复all_to_all_single和all_to_all_base接口的已知问题
• addmm、_coalesce_sparse、torch.tanh修复已知问题
### 特殊声明
dynamic_profile历史文档有误，正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html

最后提交信息为： !12968 回退 'Pull Request !12915 : Fix storage_resize_npu'

v6.0.rc2-pytorch1.11.0

851268a

2024-07-16 20:29

release v6.0.rc2-pytorch1.11.0

### 新增特性
• Ascend Extension for PyTorch 新增支持内存快照，辅助分析快速定位模型oom（out of memory）问题
• Ascend Extension for PyTorch 新增支持可独立配置event超时时间，区别HCCL notify wait超时时间，支撑模型 
  HCCL超时问题定位
• Ascend Extension for PyTorch 完成processgroup升级，reduce_scatter算子支持变长计算
• Ascend Extension for PyTorch 新增支持二进制开启时，支持多路径读取自定义算子库
• 新增支持matmul_double_backward
### 接口变更说明
• 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False
• 新增支持torch.argmax，torch.sort支持stable=True
• npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化
• npu_ffn 添加 expert_tokens_index 入参
• npu_dynamic_quant 添加 smooth_scales 入参
• npu_quantize 支持 Qint8 格式输入，并添加入参 div_mode
• npu_mm_all_reduce_base 添加 pertoken_sacle 入参
### Bugfix
• 拦截一些不支持的reduce op
• 修复all_to_all_single和all_to_all_base接口的已知问题
• addmm、_coalesce_sparse、torch.tanh修复已知问题
### 特殊申明
• arm环境推荐直接使用pip命令安装社区torch包，如使用了鲲鹏torch包（https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/ ），请配套使用torch_npu-1.11.0.post14_for_kunpeng.zip中的torch_npu包
• dynamic_profile历史文档有误，正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html

最后提交信息为： !12967 回退 'Pull Request !12913 : Fix storage_resize_npu'