74 Star 219 Fork 167

Ascend / modelzoo

 / 详情

【众智】【四川大学】【ID2073】【AmoebaNet-D】NPU训练持续一段时间后中断

DONE
Bug-Report
创建于  
2022-03-28 20:07

一、问题现象(附报错日志上下文):
代码运行到特定步数的时候,训练就中断,具体报错信息如下:
输入图片说明

二、软件版本:
-- CANN 版本 (0803 5.0.3.alpha001):
--Tensorflow1.15版本:
--Python 版本 (Python 3.7.5):
-- MindStudio版本 (e.g., MindStudio 2.0.0 (beta3)):
--操作系统版本 (CentOS Linux release 7.6.1810 (AltArch)):

三、测试步骤:
xxxx

四、日志信息:
相关日志文件的OBS链接为:
URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=P3MchD5++uTXjhNvrf7fz4d3bbMdzvlfDfL9/NG+vM7arCu2Nypt2pyx8IBI1/TjOs3TWiQuDsW8L/eTfOwY3coP6ec5Bfu5Do5MZ+Ein4GFLCgdC6g1GVIX7Mstx/5oRyUg/dAUd3cp+JinzvPrIMCUcwv6tFa27jN9beK6GoS8yyTC9f/c4xqAd+07Dv2Mctr3Gp9X9SsjHVwJ2HRoMl0IqICQ74Zgkpf+5+bI5VmcQ+R741iTuLQQsCRzumvJzsYO5CFTDC+F85HT2RJYJQUd+6iiPz5wFvIU4KH1M2/F8x945Tcz13yXfdnU7PhHcdYg0hmHyK1e8HhoCTvLcE5e4kqeCxfBbcKMlKLPjkaxrfVs+zCe3Bh+2tzUdq7Grg/L4i0Scz62ldi+BuDRDdAT9NGwdYmLRL9sMI7m1gcbKjvPzdrsusuZbkVy6zeCtEJGwcEOOmKuL2UCPDufUA/KcqlJH88XMSx/wBcT7oF0WULjvC/kA9bPPBtDAFBOBdrX0II+uxcT3coQ696K5R9zkSdqMO881NIIh5mzknNXGeZLWHbTzskhUfMPQYur

提取码:
123456

*有效期至: 2022/09/24 20:06:51 GMT+08:00

评论 (9)

小邓 创建了Bug-Report
wangxiaodan1103 任务状态TODO 修改为Analysing
wangxiaodan1103 负责人设置为chenhu
展开全部操作日志

@小邓 你好,可以打开obs共享,提供一下日志的obs桶路径嘛?

您好,我们这个项目是在裸机上训练的,没有日志的obs桶路径。具体报错日志文件如上。

@小邓 这个问题是偶现还是必现,帮忙确认一下

您好,现阶段是必现。换卡测试,从头开始运行或者从断点开始运行,都会出现这种情况。

您好,这边又测试了一下 这次可以从断点开始运行,跑两次完成训练。

@小邓
您好,上边日志信息下载不下来,能不能再提供一下呢?

老师您好,以下是日志文件的obs原始链接:
obs://amoebanet/result/training_interruption_log/

@小邓 @zero167 源码和数据集也提供一下,用obs桶路径,打开权限。还有执行命令

@小邓 @zero167 另外,这个任务不下沉,直接在cpu上跑,看能跑通不?

dongjiangtao2021 任务状态Analysing 修改为DONE

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(5)
9785852 xiao deng chao 1632562728
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo

搜索帮助