一、问题现象(附报错日志上下文):
模型在GPU上的loss曲线如下图所示:
在npu上的loss曲线如下图所示:
二、软件版本:
--Tensorflow 版本:1.15
--Python 版本 :3.7.5
三、测试步骤:
1,使用pycharm最新Modelarts插件。
2,Image Path (SWR-URL)为:ascend-share/5.0.3.alpha005_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_1101
3,NPU:1Ascend 910 CPU:24vCPUs 96GB。
提取码:
123456
*有效期至: 2022/05/14 16:52:50 GMT+08:00
你好,第一步,先看一下溢出检测专题,是否有算子溢出。
https://support.huaweicloud.com/tfmigr-cann504alpha1training/atlasmprtg_13_0042.html
第二步,可以参考关闭融合规则后重新运行(如果loss值修正和GPU一致,那就是融合规则的问题)。
https://support.huaweicloud.com/fusionref-cann504alpha1training/atlasrr_30_0001.html
你好,现在在使用modelarts运行训练任务时一直会出现 /home/ma-user/modelarts/ma-training-toolkit: Permission denied 这样的提示,然后会有 registered signal handler提示,一直无法正常运行训练任务,现在不知道是什么问题
你好,根据你们的建议我这边使用了最新的镜像(ascend-share/5.0.4.alpha002_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_1207)在混合精度的模式下训练是仍然存在算子溢出的问题,并且之前关闭融合规则后精度没有提升。
提取码:
111111
*有效期至: 2022/12/12 11:35:40 GMT+08:00
提取码:
111111
*有效期至: 2022/12/12 11:31:17 GMT+08:00
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
这个问题已经解决了,请用ascend-share/5.0.3.alpha005_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-2.0.12_1116镜像试下
登录 后才可以发表评论