74 Star 219 Fork 167

Ascend / modelzoo

 / 详情

【众智】【哈尔滨工业大学】【ID2122】【Deep-SLR】NPU训练速度慢

DONE
训练问题
创建于  
2021-11-29 11:15

一、问题现象(附报错日志上下文):

GPU 训练时间为 20 分钟,NPU 训练时间为 16 小时。(慢 48 倍)

NPU 训练时开启了混合精度 + Loss Scale。

二、软件版本:

使用了该版本镜像:ascend-share/5.0.3.alpha005_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-2.0.12_1116

-- CANN 版本 (e.g., CANN 3.0.x,5.x.x): 5.0.5.alpha005
--Tensorflow/Pytorch/MindSpore 版本: TensorFlow 1.15.0
--Python 版本 (e.g., Python 3.7.5): Python 3.7
-- MindStudio版本 (e.g., MindStudio 2.0.0 (beta3)):
--操作系统版本 (e.g., Ubuntu 18.04): EulerOS 2.8

三、测试步骤:

代码地址(提取码:666666,有效期至: 2022/11/24 11:05:54 GMT+08:00)

obs://dslr-data/run-man/MA-new-11-20-10-25-混合精度+LossScale/
(包含代码、日志、输出信息)

数据地址(提取码:666666,有效期至: 2022/11/24 11:09:54 GMT+08:00)

obs://dslr-auto/data/

四、日志信息:

日志地址(提取码:666666,有效期至: 2022/11/24 11:11:29 GMT+08:00)
(开启了 Debugger)

评论 (3)

Whyto 创建了训练问题

该模型目前精度达标,性能未达标。

wangxiaodan1103 任务状态TODO 修改为Analysing
wangxiaodan1103 负责人设置为张晓龙
张晓龙 负责人张晓龙 修改为未设置
张晓龙 添加协作者张晓龙
张晓龙 负责人设置为huangqinye

2022 年 2 月 12 日,13 日重试 NPU 训练,两次尝试均在训练过程中报错“系统容器异常退出”,异常退出时均训练至 58% 左右。

开启了混合精度 + LossScale + Profiling。

虽然没有完成训练,但是训练性能没有提升,预计时间依然是12小时左右(之前使用 NPU 训练时就是有的镜像下需要 16 小时,有的需要 12 小时)。

本次训练使用镜像版本为 ascend-share/5.0.5.alpha001_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_0126

2 月 13 日训练前中后有关文件下载地址,提取码:666666(有效期至:2023/02/08 15:41:28 GMT+08:00)。其中包含训练代码,训练日志等文件。
obs://dslr-data/run-man/MA-new-Deep-SLR_pr-02-13-03-09/

训练与测试数据集下载地址,提取码:666666(有效期至: 2023/02/08 15:48:29 GMT+08:00)。
obs://dslr-auto/data/

李想 修改了描述
李想 修改了标题
吴定远 关联仓库Ascend/modelzoo-his 修改为Ascend/modelzoo

性能在最新版本验收已达标。

颜亚文 任务状态Analysing 修改为DONE

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(3)
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo

搜索帮助