一、问题现象(附报错日志上下文):
代码运行到特定步数的时候,训练就中断,具体报错信息如下:
二、软件版本:
-- CANN 版本 (0803 5.0.3.alpha001):
--Tensorflow1.15版本:
--Python 版本 (Python 3.7.5):
-- MindStudio版本 (e.g., MindStudio 2.0.0 (beta3)):
--操作系统版本 (CentOS Linux release 7.6.1810 (AltArch)):
三、测试步骤:
xxxx
提取码:
123456
*有效期至: 2022/09/24 20:06:51 GMT+08:00
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
您好,我们这个项目是在裸机上训练的,没有日志的obs桶路径。具体报错日志文件如上。
您好,现阶段是必现。换卡测试,从头开始运行或者从断点开始运行,都会出现这种情况。
您好,这边又测试了一下 这次可以从断点开始运行,跑两次完成训练。
老师您好,以下是日志文件的obs原始链接:
obs://amoebanet/result/training_interruption_log/
登录 后才可以发表评论