[北邮]-[Seq2Seq]-[NPU单卡裸机训练报错]

一、问题现象（附报错日志上下文）：

目前使用的seq2seq模型训练迁移脚本和模型训练超参数之前在CANN版本：5.0.2.alpha005和5.0.3.alpha001上都可以正常训练，loss下降。现在使用CANN:5.0.3.alpha002训练报错，报错如下：

报错截图

输入图片说明
这个错误疑似是显存不足，但是我当前使用的超参数之前都正常训练过，不存在显存不足的情况，我使用的ASCEND_DEVICE_ID号卡上也没有其他训练任务。
而且我还发现，每次训练时出现的情况也不同，有时会报上述的错误，有时训练进程会卡住，不训练也不报错，进程也不结束，而且卡很长时间（10个小时）都没反应，这种情况经常发生。

进程卡住的截图

输入图片说明
针对上述情况我的解决办法是：更换ASCEND_DEVICE_ID。换另外一张卡可能不会卡住但是会报上述的错误。而且这种情况经常发生，我需要不停的换不同的卡进行尝试。

二、软件版本:

-- CANN 版本 (e.g., CANN 3.0.x，5.x.x): 5.0.3.alpha002
--Tensorflow/Pytorch/MindSpore 版本:tf1.15
--Python 版本 (e.g., Python 3.7.5):3.7.5
--操作系统版本 (e.g., Ubuntu 18.04):Ubuntu 18.04

三、训练日志、plog日志、训练脚本下载链接:

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFV8oLFMUsEijdFipA0iY0X8DgSY4ZOyLx4yB4XboabpE+wPbvEMzgQJirqHMQYbLQEFc+D+RsRKXjAf38vMPTI30LFz490KO4kOGtc9nv+9V89/crx4qNxX+qImT3NQa7JWMxW/j1vLJF9Uo68rUGUMT9NI2Rt5rV638fmvpNhEFgLNM17E5kf2H3M6GTKyT6QEK6gKiploZCABPy3Fv0tWFAX9Dbg0SGqU+rfPt/4Ub8N5EShGt39Rnp/S4s7QC/zNo9FHm7hDmTew39fDFEk4Ko0aCBe8CrTUJq/94XUN33Eb9XWeWkuKxDvOsHjaz/tiom8x75ViW+9t3h8S5ntBv34V0LxziDlk55Sy/IXgwZrp5l/RrdWqaI6ejssA0dpEkNC0RlpkWcsSLlYAPikN27SvsTWounzV3tmFgiyES6olkuibdrNDm3rTqEQpolFE23Nzfv29fsTwPi/NxDy3WLq0BakiYD5hvadmuqGXlQQS1UN/rEtjdPbvo/BbsvU266OkYHB8J+rNTdCNTGz

提取码:
000000

*有效期至: 2022/09/14 15:21:53 GMT+08:00

四、数据集下载链接:

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFV8oLFMUsEijdFipA0iY0X8DgSY4ZOyLx4yB4XboabpE+wPbvEMzgQJirqHMQYbLQEFc+D+RsRKXjAf38vMPTI30LFz490KO4kOGtc9nv+9V89/crx4qNxX+qImT3NQa7JWMxW/j1vLJF9Uo68rUGUMT9NI2Rt5rV638fmvpNhEFLkF6ixQ/d7Rb/hXCPlsn9aH7CQ48fFtL6/GxxScUJOW6S+t6WsBr0QSghFT1Z8SSno06fw1rKSMmNR+9jPlQg3pEWZt1lpk0qfSqkGHOwwT2mJ39P4ViTsbAWsXSNI+b0MAaOo9fmbG3BVTbBf6piLC8G0RuyN61GCwB3Ga7AZKop4Ewk2wgo0Roa3z/KDS04RIoH+EYnjpc7tR5CP8tQkY6w/6llp/IdQmiAJWXv8aUDtOunTP6Nvj5LeBI09ERfj3VL+Y/MURLwhDinxEw2Nl1nPptd72B1gcL+VqiDGFSAcbgSFkdpgma1QB8+GhQ==

提取码:
000000

*有效期至: 2022/09/14 15:22:26 GMT+08:00

五、训练脚本和数据集使用方法

首先把data文件夹里的数据集下载下来，放到项目路径下的data文件夹里，然后改translate.py文件里data_dir和train_dir两个路径，改成裸机上的绝对路径，然后执行python3 translate.py。

当前报错问题在CANN5.0.3.alpha003版本上已经解决

Ascend / modelzoo

内容风险标识