76 Star 221 Fork 169

Ascend / modelzoo

 / 详情

[北邮]-[Seq2Seq]-[NPU单卡裸机训练报错]

DONE
训练问题
创建于  
2021-09-19 15:22

一、问题现象(附报错日志上下文):

目前使用的seq2seq模型训练迁移脚本和模型训练超参数之前在CANN版本:5.0.2.alpha005和5.0.3.alpha001上都可以正常训练,loss下降。现在使用CANN:5.0.3.alpha002训练报错,报错如下:

报错截图

输入图片说明
这个错误疑似是显存不足,但是我当前使用的超参数之前都正常训练过,不存在显存不足的情况,我使用的ASCEND_DEVICE_ID号卡上也没有其他训练任务。
而且我还发现,每次训练时出现的情况也不同,有时会报上述的错误,有时训练进程会卡住,不训练也不报错,进程也不结束,而且卡很长时间(10个小时)都没反应,这种情况经常发生。

进程卡住的截图

输入图片说明
针对上述情况我的解决办法是:更换ASCEND_DEVICE_ID。换另外一张卡可能不会卡住但是会报上述的错误。而且这种情况经常发生,我需要不停的换不同的卡进行尝试。

二、软件版本:

-- CANN 版本 (e.g., CANN 3.0.x,5.x.x): 5.0.3.alpha002
--Tensorflow/Pytorch/MindSpore 版本:tf1.15
--Python 版本 (e.g., Python 3.7.5):3.7.5
--操作系统版本 (e.g., Ubuntu 18.04):Ubuntu 18.04

三、训练日志、plog日志、训练脚本下载链接:

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFV8oLFMUsEijdFipA0iY0X8DgSY4ZOyLx4yB4XboabpE+wPbvEMzgQJirqHMQYbLQEFc+D+RsRKXjAf38vMPTI30LFz490KO4kOGtc9nv+9V89/crx4qNxX+qImT3NQa7JWMxW/j1vLJF9Uo68rUGUMT9NI2Rt5rV638fmvpNhEFgLNM17E5kf2H3M6GTKyT6QEK6gKiploZCABPy3Fv0tWFAX9Dbg0SGqU+rfPt/4Ub8N5EShGt39Rnp/S4s7QC/zNo9FHm7hDmTew39fDFEk4Ko0aCBe8CrTUJq/94XUN33Eb9XWeWkuKxDvOsHjaz/tiom8x75ViW+9t3h8S5ntBv34V0LxziDlk55Sy/IXgwZrp5l/RrdWqaI6ejssA0dpEkNC0RlpkWcsSLlYAPikN27SvsTWounzV3tmFgiyES6olkuibdrNDm3rTqEQpolFE23Nzfv29fsTwPi/NxDy3WLq0BakiYD5hvadmuqGXlQQS1UN/rEtjdPbvo/BbsvU266OkYHB8J+rNTdCNTGz

提取码:
000000

*有效期至: 2022/09/14 15:21:53 GMT+08:00

四、数据集下载链接:

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFV8oLFMUsEijdFipA0iY0X8DgSY4ZOyLx4yB4XboabpE+wPbvEMzgQJirqHMQYbLQEFc+D+RsRKXjAf38vMPTI30LFz490KO4kOGtc9nv+9V89/crx4qNxX+qImT3NQa7JWMxW/j1vLJF9Uo68rUGUMT9NI2Rt5rV638fmvpNhEFLkF6ixQ/d7Rb/hXCPlsn9aH7CQ48fFtL6/GxxScUJOW6S+t6WsBr0QSghFT1Z8SSno06fw1rKSMmNR+9jPlQg3pEWZt1lpk0qfSqkGHOwwT2mJ39P4ViTsbAWsXSNI+b0MAaOo9fmbG3BVTbBf6piLC8G0RuyN61GCwB3Ga7AZKop4Ewk2wgo0Roa3z/KDS04RIoH+EYnjpc7tR5CP8tQkY6w/6llp/IdQmiAJWXv8aUDtOunTP6Nvj5LeBI09ERfj3VL+Y/MURLwhDinxEw2Nl1nPptd72B1gcL+VqiDGFSAcbgSFkdpgma1QB8+GhQ==

提取码:
000000

*有效期至: 2022/09/14 15:22:26 GMT+08:00

五、训练脚本和数据集使用方法

首先把data文件夹里的数据集下载下来,放到项目路径下的data文件夹里,然后改translate.py文件里data_dir和train_dir两个路径,改成裸机上的绝对路径,然后执行python3 translate.py。

评论 (1)

codingth 创建了训练问题
codingth 关联仓库设置为Ascend/modelzoo
codingth 修改了描述
codingth 修改了描述
zhujianpeng 负责人设置为chenhu
zhujianpeng 任务状态TODO 修改为Analysing
展开全部操作日志

当前报错问题在CANN5.0.3.alpha003版本上已经解决

codingth 任务状态Analysing 修改为DONE
吴定远 关联仓库Ascend/modelzoo-his 修改为Ascend/modelzoo

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(1)
5559452 codingth 1632918985
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo

搜索帮助

53164aa7 5694891 3bd8fe86 5694891