一、问题现象(附报错日志上下文):
就是不开混合精度的话能完全完成训练,但若开启混合精度后,经常训练一半就会报错停止,一般训练120轮左右会停止,前120轮的训练是正常的
二、软件版本:
tf1.15
python3.7.5
使用的镜像是
ascend-share/5.0.4.alpha002_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_1207
三、测试步骤:
我这个程序可以直接运行main.py,因为我是pycharm上连modelarts进行NPU训练,所以有个boot_modelarts文件
我这个程序要测试的话要改三个地方
在main.py的19行dataroot要改成存放数据集的路径
在main.py的36行logdir要改成文件输出的路径
在masf_func的第63行WEIGHTPATHS要改成预训练权重路径
四、日志信息:
Error Message is :
EZ9999: Inner Error!
The device(0), core list[0-0], error code is:[FUNC:PrintCoreInfoErrMsg][FILE:device_error_proc.cc][LINE:417]
coreId( 0): 0x800000 [FUNC:PrintCoreInfoErrMsg][FILE:device_error_proc.cc][LINE:428]
Aicore kernel execute failed, device_id=0, stream_id=1271, report_stream_id=1286, task_id=67, fault kernel_name=0_151_gradients_1/model/truediv_94_grad/Sum_1, func_name=te_reducesumd_83ea292cf87215d9cb8c1c225a7616884663e98411cb3ec855885931462ef8fd_6d6fa7fefba29d16_0__kernel0, program id=5666, hash=11804509405317503013[FUNC:GetError][FILE:stream.cc][LINE:712]
Stream synchronize failed, stream = 0xfff561f00720[FUNC:StreamSynchronize][FILE:logger.cc][LINE:270]
rtStreamSynchronize execute failed, reason=[the model stream execute failed][FUNC:ReportFuncErrorReason][FILE:error_message_manage.cc][LINE:39]
invoke rtStreamSynchronize failed, ret = 507011[FUNC:Synchronize][FILE:hybrid_execution_context.cc][LINE:87]
failed to execute graph. model_id = 18[FUNC:HandleResult][FILE:hybrid_model_async_executor.cc][LINE:220]
[[{{node GeOp49_0}}]]
提取码:
123456
*有效期至: 2022/12/09 21:51:18 GMT+08:00
提取码:
123456
*有效期至: 2022/12/09 21:55:01 GMT+08:00
你好请将学校和模型名称填上
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
登录 后才可以发表评论