登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
登录
注册
代码拉取完成,页面将自动刷新
当前仓库属于暂停状态,部分功能使用受限,详情请查阅
仓库状态说明
开源项目
>
人工智能
>
机器学习/深度学习
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
88
Star
649
Fork
1.4K
Ascend
/
pytorch
暂停
代码
Issues
41
Pull Requests
350
Wiki
统计
流水线
服务
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
我知道了,不再自动展开
发行版
v7.0.0-pytorch2.1.0
881a276
2025-04-25 16:53
对比
release v7.0.0-pytorch2.1.0
shaoyf
一.新增说明 1. 新增特性 • Ascend Extension for PyTorch 新增torch_npu_run支持分级tcpstore和建链 • Ascend Extension for PyTorch 新增支持devicemesh,原生allgather和reducescatter接口支持不等长输入输出 • Ascend Extension for PyTorch 新增支持通过pg_options配置hccl通信域参数 • Ascend Extension for PyTorch 支持硬件延时故障感知和恢复 2. 新增二进制包 • Ascend Extension for PyTorch 新增发布abi=1二进制包 二.删除说明 无 三. 变更说明 1.接口变更说明 • 新增npu_cross_entropy_loss、npu_advance_step_flashattn和npu_group_norm_swish等自定义算子API;npu_rotary_mul新增支持rotary_mode入参 四. 已知问题 无 五. Bugfix • 修复AllGather入参为empty超时报错问题 • 修复HCCL_EVENT_TIMEOUT配置为0,op wait无法永不超时问题 • 修复alltoall算子临时tensor未释放内存上涨问题 六. 特殊声明 • 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用 • 本版本修复CVE-2025-32434漏洞 七.版本配套关系 MindSpeed-Core branch: [2.0.0_core_r0.8.0](https://gitee.com/ascend/MindSpeed/tree/2.0.0_core_r0.8.0/) MindSpeed-MM branch: [2.0.0](https://gitee.com/ascend/MindSpeed-MM/tree/2.0.0/) MindSpedd-LLM branch: [2.0.0](https://gitee.com/ascend/MindSpeed-LLM/tree/2.0.0/) Driving SDK branch:[branch_v7.0.RC1](https://gitee.com/ascend/DrivingSDK/tree/branch_v7.0.RC1/)
最后提交信息为:
!20666
update torchair commitid 2.1.0
v6.0.0-pytorch2.4.0
88dab78
2025-01-04 19:07
对比
release v6.0.0-pytorch2.4.0
shaoyf
### 一 新增说明 1. 新增特性 • Ascend Extension for PyTorch 新增细粒度绑核,进一步优化算子下发性能 • Ascend Extension for PyTorch 支持设备同步超时时间配置,提升训练灵活度和dfx能力 • Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率 • Ascend Extension for PyTorch 新增支持同步流下发接口,为训练任务卡住时提供逃生通道,保证ckpt能正常保存 • Ascend Extension for PyTorch 新增支持Atlas A3训练产品 ### 二 删除说明 无 ### 三 变更说明 1.接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持pg_options配置hccl通信参数hccl_buffer_size • 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream • npu_dynamic_quant:新增可选入参group_index,dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise • 新增环境变量ACL_DEVICE_SYNC_TIMEOUT,支持device同步超时手动配置 • 新增环境变量INF_NAN_MODE_FORCE_DISABLE,开启后强制关闭INF_NAN模式 ### 四 已知问题 无 ### 五 Bugfix • 修复sendrecv初始化时卡死问题,支持P2P通信域独立建链 • 修复反向计算跨流计算的内存提前复用问题 ### 六 特殊声明 • 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用 • Atlas A2训练产品/Atlas A3训练产品关闭INF_NAN模式会产生精度问题,所以强制拦截,若要强制关闭IF_NAN模式,则需开启环境变量INF_NAN_MODE_FORCE_DISABLE,但模型仍然可能会产生精度问题
最后提交信息为:
!17180
[Bugfix] Copy operator misses memory_format.
v6.0.0-pytorch2.3.1
62e67c3
2025-01-04 19:06
对比
release v6.0.0-pytorch2.3.1
shaoyf
### 一 新增说明 1. 新增特性 • Ascend Extension for PyTorch 新增细粒度绑核,进一步优化算子下发性能 • Ascend Extension for PyTorch 支持设备同步超时时间配置,提升训练灵活度和dfx能力 • Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率 • Ascend Extension for PyTorch 新增支持同步流下发接口,为训练任务卡住时提供逃生通道,保证ckpt能正常保存 • Ascend Extension for PyTorch 新增支持Atlas A3训练产品 ### 二 删除说明 无 ### 三 变更说明 1.接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持pg_options配置hccl通信参数hccl_buffer_size • 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream • npu_dynamic_quant:新增可选入参group_index,dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise • 新增环境变量ACL_DEVICE_SYNC_TIMEOUT,支持device同步超时手动配置 • 新增环境变量INF_NAN_MODE_FORCE_DISABLE,开启后强制关闭INF_NAN模式 ### 四 已知问题 无 ### 五 Bugfix • 修复sendrecv初始化时卡死问题,支持P2P通信域独立建链 • 修复反向计算跨流计算的内存提前复用问题 ### 六 特殊声明 • 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用 • Atlas A2训练产品/Atlas A3训练产品关闭INF_NAN模式可能会产生精度问题,所以强制拦截,若要强制关闭IF_NAN模式,则需开启环境变量INF_NAN_MODE_FORCE_DISABLE,但模型仍然可能会产生精度问题
最后提交信息为:
!17178
[Bugfix] Copy operator misses memory_format.
v6.0.0-pytorch2.1.0
cb73edf
2025-01-04 19:05
对比
release v6.0.0-pytorch2.1.0
shaoyf
### 一 新增说明 1. 新增特性 • Ascend Extension for PyTorch 新增细粒度绑核,进一步优化算子下发性能 • Ascend Extension for PyTorch 支持设备同步超时时间配置,提升训练灵活度和dfx能力 • Ascend Extension for PyTorch 新增支持通信域单独设置HCCL_BUFFERSIZE,提升集合通信效率 • Ascend Extension for PyTorch 新增支持同步流下发接口,为训练任务卡住时提供逃生通道,保证ckpt能正常保存 • Ascend Extension for PyTorch 新增支持Atlas A3训练产品 ### 二 删除说明 无 ### 三 变更说明 1.接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持pg_options配置hccl通信参数hccl_buffer_size • 新增支持npu_gelu, npu_group_quant, torch_npu.profiler.dynamic_profile, torch.npu.SyncLaunchStream • npu_dynamic_quant:新增可选入参group_index,dst_type; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; npu_weight_quant_batchmatmu: 新增可选参数inner_precise; torch_npu.contrib.module.LinearWeightQuant: 新增可选参数inner_precise • 新增环境变量ACL_DEVICE_SYNC_TIMEOUT,支持device同步超时手动配置 • 新增环境变量INF_NAN_MODE_FORCE_DISABLE,开启后强制关闭INF_NAN模式 ### 四 已知问题 无 ### 五 Bugfix • 修复sendrecv初始化时卡死问题,支持P2P通信域独立建链 • 修复反向计算跨流计算的内存提前复用问题 ### 六 特殊声明 • 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用 • Atlas A2训练产品/Atlas A3训练产品关闭INF_NAN模式可能会产生精度问题,所以强制拦截,若要强制关闭IF_NAN模式,则需开启环境变量INF_NAN_MODE_FORCE_DISABLE,但模型仍然可能会产生精度问题 ### 七 版本配套关系 MindSpeed-Core branch: [v1.0.0_core_r0.7.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.7.0), [v1.0.0_core_r0.6.0](https://gitee.com/ascend/MindSpeed/releases/tag/v1.0.0_core_r0.6.0) MindSpeed-MM branch: [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0) MindSpedd-LLM branch: [v1.0.0](https://gitee.com/ascend/MindSpeed-LLM/releases/tag/v1.0.0) Mxdriving branch:[branch_v6.0.0](https://gitee.com/ascend/mxDriving/releases/tag/branch_v6.0.0)
最后提交信息为:
!17201
Dequeue does not need to wait for the empty semaphore when i...
预览版本
v6.0.0.alpha001-pytorch2.5.1
a3b75fc
2024-11-12 10:53
对比
v6.0.0.alpha001-pytorch2.5.1
dilililiwhy
• PyTorch 2.5.1适配预览版本,继承2.4.0特性,基于PrivateUse1特性,支持eager模式分布式、混合精度训练等基础能力 • 新增部分API支持及特性支持 • 配套CANN 8.0.0.alpha001:https://www.hiascend.com/developer/download/community/result?module=cann
最后提交信息为:
!15780
Update torchair commit id
v6.0.rc3-pytorch2.4.0
5762ec6
2024-10-29 14:52
对比
release v6.0.rc3-pytorch2.4.0
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增一级流水优化,进一步优化下发性能 • Ascend Extension for PyTorch 新增支持foreach优化器,相比foreach性能有提升或不变 • Ascend Extension for PyTorch 支持基于ranktable file进行集合通信域建链,可缩短在大集群下通信域建链的耗时 • Ascend Extension for PyTorch 支持TCPStore建链优化,可缩短TCPStore建链的耗时 ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.conj、torch.polar接口,torch.isin新增支持双tensor输入 • npu_mm_all_reduce_base新增可选入参comm_quant_scale_1,comm_quant_scale_2 • 废弃接口npu_ifmr、npu_masked_fill_range、npu_normalize_batch、npu_rotated_box_decode、npu_rotated_box_encode、npu_scatter、npu_stride_add ### Bugfix • 修复虚拟内存开启和单进程多卡功能无法共用问题,但需使用Ascend HDK 24.1.RC3及以上版本 ### 特殊声明 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用
最后提交信息为:
!15546
add 8.0.T37,8.0.T38,8.0.T39 to foreach black list
v6.0.rc3-pytorch2.3.1
6ec1fd9
2024-10-29 14:49
对比
release v6.0.rc3-pytorch2.3.1
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增一级流水优化,进一步优化下发性能 • Ascend Extension for PyTorch 新增支持foreach优化器,相比foreach性能有提升或不变 • Ascend Extension for PyTorch 支持基于ranktable file进行集合通信域建链,可缩短在大集群下通信域建链的耗时 • Ascend Extension for PyTorch 支持TCPStore建链优化,可缩短TCPStore建链的耗时 ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.conj、torch.polar接口,torch.isin新增支持双tensor输入 • npu_mm_all_reduce_base新增可选入参comm_quant_scale_1,comm_quant_scale_2 • 废弃接口npu_ifmr、npu_masked_fill_range、npu_normalize_batch、npu_rotated_box_decode、npu_rotated_box_encode、npu_scatter、npu_stride_add ### Bugfix • 修复虚拟内存开启和单进程多卡功能无法共用问题,但需使用Ascend HDK 24.1.RC3及以上版本 ### 特殊声明 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用
最后提交信息为:
!15545
add 8.0.T37,8.0.T38,8.0.T39 to foreach black list
v6.0.rc3-pytorch2.1.0
1fa937a
2024-10-29 14:28
对比
release v6.0.rc3-pytorch2.1.0
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增一级流水优化,进一步优化下发性能 • Ascend Extension for PyTorch 新增支持foreach优化器,相比foreach性能有提升或不变 • Ascend Extension for PyTorch 支持基于ranktable file进行集合通信域建链,可缩短在大集群下通信域建链的耗时 • Ascend Extension for PyTorch 支持TCPStore建链优化,可缩短TCPStore建链的耗时 ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.conj、torch.polar接口,torch.isin新增支持双tensor输入 • npu_mm_all_reduce_base新增可选入参comm_quant_scale_1,comm_quant_scale_2 • 废弃接口npu_ifmr、npu_masked_fill_range、npu_normalize_batch、npu_rotated_box_decode、npu_rotated_box_encode、npu_scatter、npu_stride_add ### Bugfix • 修复虚拟内存开启和单进程多卡功能无法共用问题,但需使用Ascend HDK 24.1.RC3及以上版本 ### 特殊声明 虚拟内存与单进程多卡需要在Ascend HDK 24.1.RC3以上的版本才能直接使用,其他版本不能共同使用 ### 版本配套关系 MindSpeed branch:[v1.0.RC3_core_r0.6.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.6.0/)、[v1.0.RC3_core_r0.7.0](https://gitee.com/ascend/MindSpeed/tree/1.0.RC3_core_r0.7.0) MindSpeed-MM branch:[v1.0.RC3.0](https://gitee.com/ascend/MindSpeed-MM/tree/v1.0.RC3.0) ModelLink branch:[v1.0.RC3.0](https://gitee.com/ascend/ModelLink/tree/v1.0.RC3.0) Mxdriving branch:[branch_v6.0.0-RC3](https://gitee.com/ascend/mxDriving/tree/branch_v6.0.0-RC3)
最后提交信息为:
!15544
add 8.0.T37,8.0.T38,8.0.T39 to foreach black list
v6.0.rc2.1-pytorch1.11.0
6a563e5
2024-09-23 15:48
对比
release v6.0.rc2.1-pytorch1.11.0
郭光浩
### Bugfix • 修复动态Profiling异常场景打断用户业务进程的问题 • 新增SyncLaunchStream接口,在该流下发任务不再使用taskqueue异步下发 ### 特殊申明 • arm环境推荐直接使用pip命令安装社区torch包,如使用了鲲鹏torch包(https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/ ),请配套使用torch_npu-1.11.0.post15_for_kunpeng.zip中的torch_npu包
最后提交信息为:
!14715
modify version
v6.0.rc2.1-pytorch2.2.0
fd9c674
2024-09-23 15:43
对比
release v6.0.rc2.1-pytorch2.2.0
郭光浩
### Bugfix • 修复多线程场景下coredump的问题 • 修复动态Profiling异常场景打断用户业务进程的问题
最后提交信息为:
!14707
modify version
v6.0.rc2.1-pytorch2.3.1
3d71a8b
2024-09-23 15:42
对比
release v6.0.rc2.1-pytorch2.3.1
郭光浩
### Bugfix • 修复多线程场景下coredump的问题 • 修复动态Profiling异常场景打断用户业务进程的问题
最后提交信息为:
!14708
modify version
v6.0.rc2.1-pytorch2.1.0
617ae11
2024-09-23 15:41
对比
release v6.0.rc2.1-pytorch2.1.0
郭光浩
### Bugfix • 修复多线程场景下coredump的问题 • 修复动态Profiling异常场景打断用户业务进程的问题
最后提交信息为:
!14709
modify version
预览版本
v6.0.rc3.alpha001-pytorch2.4.0
6e1b5d0
2024-08-12 10:36
对比
v6.0.rc3.alpha001-pytorch2.4.0
郭光浩
• PyTorch 2.4.0适配预览版本,继承2.3.1特性,基于PrivateUse1特性,支持eager模式分布式、混合精度训练等基础能力 • 新增部分API支持及特性支持 • 配套CANN 8.0.RC3.alpha001:https://www.hiascend.com/developer/download/community/result?module=cann
最后提交信息为:
!13546
[PROF] Npu profiler config compat for pytorch
v6.0.rc2-pytorch2.1.0
06cec48
2024-07-16 20:46
对比
release v6.0.rc2-pytorch2.1.0
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增支持内存快照,辅助分析快速定位模型oom(out of memory)问题 • Ascend Extension for PyTorch 新增支持可独立配置event超时时间,区别HCCL notify wait超时时间,支撑模型 HCCL超时问题定位 • Ascend Extension for PyTorch 完成processgroup升级,reduce_scatter算子支持变长计算 • Ascend Extension for PyTorch 新增支持二进制开启时,支持多路径读取自定义算子库 • Ascend Extension for PyTorch 支持关闭内存池,在某些debug场景下,需排除NPU实现的内存池影响,可关闭内存复 用机制,实现完全依赖驱动内存申请和释放,辅助问题定位 • 新增支持matmul_double_backward • 新增支持图模式部分特性 ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.argmax,torch.sort支持stable=True • npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化 • npu_ffn 添加 expert_tokens_index 入参 • npu_dynamic_quant 添加 smooth_scales 入参 • npu_quantize 支持 Qint8 格式输入,并添加入参 div_mode • npu_mm_all_reduce_base 添加 pertoken_sacle 入参 • npu_prompt_flash_attention 接口支持 bsnd 格式输出,不再支持通过 sparse 取值传入精度模式 • npu_fused_infer_attention_score 新增多个入参 ### Bugfix • 拦截一些不支持的reduce op • 修复all_to_all_single和all_to_all_base接口的已知问题 • addmm、_coalesce_sparse、torch.tanh修复已知问题 ### 特殊声明 dynamic_profile历史文档有误,正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html ### 版本配套关系 [MindSpeed branch:1.0.RC2(was previously 1.1)](https://gitee.com/ascend/MindSpeed/tree/1.0.RC2/) [ModelLink branch:1.0.RC2(was previously 1.1)](https://gitee.com/ascend/ModelLink/tree/1.0.RC2/) [Mxdriving branch:branch_v6.0.0-RC2](https://gitee.com/ascend/mxDriving/tree/branch_v6.0.0-RC2/)
最后提交信息为:
!12969
回退 'Pull Request
!12914
: Fix storage_resize_npu'
v6.0.rc2-pytorch2.3.1
756295d
2024-07-16 20:31
对比
release v6.0.rc2-pytorch2.3.1
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增支持内存快照,辅助分析快速定位模型oom(out of memory)问题 • Ascend Extension for PyTorch 新增支持可独立配置event超时时间,区别HCCL notify wait超时时间,支撑模型 HCCL超时问题定位 • Ascend Extension for PyTorch 完成processgroup升级,reduce_scatter算子支持变长计算 • Ascend Extension for PyTorch 新增支持二进制开启时,支持多路径读取自定义算子库 • Ascend Extension for PyTorch 支持关闭内存池,在某些debug场景下,需排除NPU实现的内存池影响,可关闭内存复 用机制,实现完全依赖驱动内存申请和释放,辅助问题定位 • 新增支持matmul_double_backward • 新增支持图模式部分特性 ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.argmax,torch.sort支持stable=True • npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化 • npu_ffn 添加 expert_tokens_index 入参 • npu_dynamic_quant 添加 smooth_scales 入参 • npu_quantize 支持 Qint8 格式输入,并添加入参 div_mode • npu_mm_all_reduce_base 添加 pertoken_sacle 入参 ### Bugfix • 拦截一些不支持的reduce op • 修复all_to_all_single和all_to_all_base接口的已知问题 • addmm、_coalesce_sparse、torch.tanh修复已知问题 ### 特殊声明 dynamic_profile历史文档有误,正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html
最后提交信息为:
!12970
回退 'Pull Request
!12916
: Fix storage_resize_npu'
v6.0.rc2-pytorch2.2.0
927a701
2024-07-16 20:30
对比
release v6.0.rc2-pytorch2.2.0
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增支持内存快照,辅助分析快速定位模型oom(out of memory)问题 • Ascend Extension for PyTorch 新增支持可独立配置event超时时间,区别HCCL notify wait超时时间,支撑模型 HCCL超时问题定位 • Ascend Extension for PyTorch 完成processgroup升级,reduce_scatter算子支持变长计算 • Ascend Extension for PyTorch 新增支持二进制开启时,支持多路径读取自定义算子库 • Ascend Extension for PyTorch 支持关闭内存池,在某些debug场景下,需排除NPU实现的内存池影响,可关闭内存复 用机制,实现完全依赖驱动内存申请和释放,辅助问题定位 • 新增支持matmul_double_backward • 新增支持图模式部分特性 ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.argmax,torch.sort支持stable=True • npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化 • npu_ffn 添加 expert_tokens_index 入参 • npu_dynamic_quant 添加 smooth_scales 入参 • npu_quantize 支持 Qint8 格式输入,并添加入参 div_mode • npu_mm_all_reduce_base 添加 pertoken_sacle 入参 ### Bugfix • 拦截一些不支持的reduce op • 修复all_to_all_single和all_to_all_base接口的已知问题 • addmm、_coalesce_sparse、torch.tanh修复已知问题 ### 特殊声明 dynamic_profile历史文档有误,正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html
最后提交信息为:
!12968
回退 'Pull Request
!12915
: Fix storage_resize_npu'
v6.0.rc2-pytorch1.11.0
851268a
2024-07-16 20:29
对比
release v6.0.rc2-pytorch1.11.0
郭光浩
### 新增特性 • Ascend Extension for PyTorch 新增支持内存快照,辅助分析快速定位模型oom(out of memory)问题 • Ascend Extension for PyTorch 新增支持可独立配置event超时时间,区别HCCL notify wait超时时间,支撑模型 HCCL超时问题定位 • Ascend Extension for PyTorch 完成processgroup升级,reduce_scatter算子支持变长计算 • Ascend Extension for PyTorch 新增支持二进制开启时,支持多路径读取自定义算子库 • 新增支持matmul_double_backward ### 接口变更说明 • 虚拟内存开关PYTORCH_NPU_ALLOC_CONF=expandable_segments:True/False 在本次release中仍然保持为False • 新增支持torch.argmax,torch.sort支持stable=True • npu_add_layer_norm、LSTM、scaled_dot_prodect_attention 接口功能优化 • npu_ffn 添加 expert_tokens_index 入参 • npu_dynamic_quant 添加 smooth_scales 入参 • npu_quantize 支持 Qint8 格式输入,并添加入参 div_mode • npu_mm_all_reduce_base 添加 pertoken_sacle 入参 ### Bugfix • 拦截一些不支持的reduce op • 修复all_to_all_single和all_to_all_base接口的已知问题 • addmm、_coalesce_sparse、torch.tanh修复已知问题 ### 特殊申明 • arm环境推荐直接使用pip命令安装社区torch包,如使用了鲲鹏torch包(https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/ ),请配套使用torch_npu-1.11.0.post14_for_kunpeng.zip中的torch_npu包 • dynamic_profile历史文档有误,正确使用请参考 https://www.hiascend.com/document/detail/zh/canncommercial/80RC2/devaids/auxiliarydevtool/atlasprofiling_16_0038.html
最后提交信息为:
!12967
回退 'Pull Request
!12913
: Fix storage_resize_npu'
预览版本
v6.0.rc2.alpha002-pytorch2.3.1
94d99ff
2024-06-06 16:45
对比
v6.0.rc2.alpha002-pytorch2.3.1
郭光浩
• PyTorch 2.3.1适配预览版本,继承2.2.0特性,基于PrivateUse1特性,支持eager模式分布式、混合精度训练等基础能力 • 新增部分API支持及特性支持 • 配套CANN 8.0.RC2.alpha002:https://www.hiascend.com/developer/download/community/result?module=cann
最后提交信息为:
!12208
Release 2.3.1rc1
预览版本
v6.0.rc1.1-pytorch1.11.0
9c39de6
2024-05-23 21:10
对比
release v6.0.rc1.1-pytorch1.11.0
郭光浩
修复少量bug
最后提交信息为:
update setup.py.
预览版本
v6.0.rc1.1-pytorch2.1.0
7204abe
2024-05-23 21:09
对比
release v6.0.rc1.1-pytorch2.1.0
郭光浩
修复少量bug
最后提交信息为:
update setup.py.
下载
请输入验证码,防止盗链导致资源被占用
取消
下载
Python
1
https://gitee.com/ascend/pytorch.git
git@gitee.com:ascend/pytorch.git
ascend
pytorch
pytorch
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册