【众智】【哈尔滨工业大学】【ID2122】【Deep-SLR】NPU训练速度慢

一、问题现象（附报错日志上下文）：

GPU 训练时间为 20 分钟，NPU 训练时间为 16 小时。（慢 48 倍）

NPU 训练时开启了混合精度 + Loss Scale。

二、软件版本:

使用了该版本镜像：ascend-share/5.0.3.alpha005_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-2.0.12_1116

-- CANN 版本 (e.g., CANN 3.0.x，5.x.x): 5.0.5.alpha005
--Tensorflow/Pytorch/MindSpore 版本: TensorFlow 1.15.0
--Python 版本 (e.g., Python 3.7.5): Python 3.7
-- MindStudio版本 (e.g., MindStudio 2.0.0 (beta3)):
--操作系统版本 (e.g., Ubuntu 18.04): EulerOS 2.8

三、测试步骤：

代码地址（提取码：666666，有效期至: 2022/11/24 11:05:54 GMT+08:00）

obs://dslr-data/run-man/MA-new-11-20-10-25-混合精度+LossScale/
（包含代码、日志、输出信息）

数据地址（提取码：666666，有效期至: 2022/11/24 11:09:54 GMT+08:00）

obs://dslr-auto/data/

四、日志信息:

日志地址（提取码：666666，有效期至: 2022/11/24 11:11:29 GMT+08:00）
（开启了 Debugger）

该模型目前精度达标，性能未达标。

2022 年 2 月 12 日，13 日重试 NPU 训练，两次尝试均在训练过程中报错“系统容器异常退出”，异常退出时均训练至 58% 左右。

开启了混合精度 + LossScale + Profiling。

虽然没有完成训练，但是训练性能没有提升，预计时间依然是12小时左右（之前使用 NPU 训练时就是有的镜像下需要 16 小时，有的需要 12 小时）。

本次训练使用镜像版本为 ascend-share/5.0.5.alpha001_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_0126 。

2 月 13 日训练前中后有关文件下载地址，提取码：666666（有效期至：2023/02/08 15:41:28 GMT+08:00）。其中包含训练代码，训练日志等文件。
obs://dslr-data/run-man/MA-new-Deep-SLR_pr-02-13-03-09/

训练与测试数据集下载地址，提取码：666666（有效期至: 2023/02/08 15:48:29 GMT+08:00）。
obs://dslr-auto/data/

性能在最新版本验收已达标。

Ascend / modelzoo

内容风险标识

评论 (3)

Ascend / modelzoo .gitee-modal { width: 500px !important; }

内容风险标识