目前使用的seq2seq模型训练迁移脚本和模型训练超参数之前在CANN版本:5.0.2.alpha005和5.0.3.alpha001上都可以正常训练,loss下降。现在使用CANN:5.0.3.alpha002训练报错,报错如下:
这个错误疑似是显存不足,但是我当前使用的超参数之前都正常训练过,不存在显存不足的情况,我使用的ASCEND_DEVICE_ID号卡上也没有其他训练任务。
而且我还发现,每次训练时出现的情况也不同,有时会报上述的错误,有时训练进程会卡住,不训练也不报错,进程也不结束,而且卡很长时间(10个小时)都没反应,这种情况经常发生。
针对上述情况我的解决办法是:更换ASCEND_DEVICE_ID。换另外一张卡可能不会卡住但是会报上述的错误。而且这种情况经常发生,我需要不停的换不同的卡进行尝试。
-- CANN 版本 (e.g., CANN 3.0.x,5.x.x): 5.0.3.alpha002
--Tensorflow/Pytorch/MindSpore 版本:tf1.15
--Python 版本 (e.g., Python 3.7.5):3.7.5
--操作系统版本 (e.g., Ubuntu 18.04):Ubuntu 18.04
提取码:
000000
*有效期至: 2022/09/14 15:21:53 GMT+08:00
提取码:
000000
*有效期至: 2022/09/14 15:22:26 GMT+08:00
首先把data文件夹里的数据集下载下来,放到项目路径下的data文件夹里,然后改translate.py文件里data_dir和train_dir两个路径,改成裸机上的绝对路径,然后执行python3 translate.py。
当前报错问题在CANN5.0.3.alpha003版本上已经解决
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
登录 后才可以发表评论