一、问题现象(附报错日志上下文):
GPU 训练时间为 20 分钟,NPU 训练时间为 16 小时。(慢 48 倍)
NPU 训练时开启了混合精度 + Loss Scale。
二、软件版本:
使用了该版本镜像:ascend-share/5.0.3.alpha005_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-2.0.12_1116
-- CANN 版本 (e.g., CANN 3.0.x,5.x.x): 5.0.5.alpha005
--Tensorflow/Pytorch/MindSpore 版本: TensorFlow 1.15.0
--Python 版本 (e.g., Python 3.7.5): Python 3.7
-- MindStudio版本 (e.g., MindStudio 2.0.0 (beta3)):
--操作系统版本 (e.g., Ubuntu 18.04): EulerOS 2.8
三、测试步骤:
代码地址(提取码:666666,有效期至: 2022/11/24 11:05:54 GMT+08:00)
obs://dslr-data/run-man/MA-new-11-20-10-25-混合精度+LossScale/
(包含代码、日志、输出信息)
数据地址(提取码:666666,有效期至: 2022/11/24 11:09:54 GMT+08:00)
obs://dslr-auto/data/
四、日志信息:
日志地址(提取码:666666,有效期至: 2022/11/24 11:11:29 GMT+08:00)
(开启了 Debugger)
该模型目前精度达标,性能未达标。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
2022 年 2 月 12 日,13 日重试 NPU 训练,两次尝试均在训练过程中报错“系统容器异常退出”,异常退出时均训练至 58% 左右。
开启了混合精度 + LossScale + Profiling。
虽然没有完成训练,但是训练性能没有提升,预计时间依然是12小时左右(之前使用 NPU 训练时就是有的镜像下需要 16 小时,有的需要 12 小时)。
本次训练使用镜像版本为 ascend-share/5.0.5.alpha001_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_0126
。
2 月 13 日训练前中后有关文件下载地址,提取码:666666(有效期至:2023/02/08 15:41:28 GMT+08:00)。其中包含训练代码,训练日志等文件。
obs://dslr-data/run-man/MA-new-Deep-SLR_pr-02-13-03-09/
训练与测试数据集下载地址,提取码:666666(有效期至: 2023/02/08 15:48:29 GMT+08:00)。
obs://dslr-auto/data/
性能在最新版本验收已达标。
登录 后才可以发表评论