75 Star 219 Fork 166

Ascend / modelzoo

 / 详情

[北邮]-[Seq2Seq]-[ModelArts-GPUv100-训练性能问题]

DONE
训练问题
创建于  
2021-09-01 20:38

一、问题描述

seq2seq模型在modelarts上,选择GPUv100验证模型在v100上的性能时,发现模型训练速度比3090训练速度慢,3090一个step需要0.7秒左右,v100一个step需要2.5秒左右。

3090训练截图

输入图片说明

v100训练截图

输入图片说明
通过分析,发现数据预处理阶段耗时不严重,执行训练部分耗时严重,如下图所示。

训练日志截图

输入图片说明
请问老师还有什么别的办法能分析在GPU上训练的性能问题呢?

二、软件版本

-- Tensorflow 版本: TF1.13.1
-- Python 版本: python 3.6

三、训练脚本文件和日志文件链接

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFV8oLFMUsEijdFipA0iY0X8DgSY4ZOyLx4yB4XboabpE+wPbvEMzgQJirqHMQYbLQEFc+D+RsRKXjAf38vMPTI30LFz490KO4kOGtc9nv+9V89/crx4qNxX+qImT3NQa7JWMxW/j1vLJF9Uo68rUGUSq4OHLdw3D64SVKj5q/PgXVJZb6W/KcjpdLmyrgC0g0wuHlBpfNpJvGGd9rYvjTlfAdBXbEz1f35UT3qf9XVrSL9q6e2Uw9bmHoOBTLpu9uysvAOvNIP9Tusw+isV+cHIemt8MfqbvS467OvaEy9a0UShdYFgVAu3CECKgHTHGJdu8ejjUXk/JftkVx56s6TtuEo5YRuT4q+zVFSin2tVweers21PM232wmA8aBb2t4KixCPrfY/hlYvdwc/VHm6EiC93uFUVFVB8Ch+KGyLTV1yfN4pZeBZ9o5NGrN8zuOMt7k5UST1uMFGFLpRZm8YL8fL7ib9GZzrMYIAuUqREiNWJdQAtehX58eRumN6xJkJ7Ba22lt7fg9Q4qO+/VMCeqD8fOSfFEzDv+r+jPgqbzdoVZS96OFO2E/FsjypjbSvtCVdCO+Yvl4IyyK4bocU

提取码:
000000

*有效期至: 2022/08/27 20:36:45 GMT+08:00

四、数据集链接

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFDQ1GomoNr0wJti5uI0Uq/N9FZrSABlO3ijTDkjNT5dINcaJCVO6E/uHcSWQJnOUu2XCz8QMIiMYF9wokagkwd3QexAaTMxa2sRE+eiNy5kTq48gfeF0Amw13uVH/QsRhvaLjpMyPEpHJIl9WEcS5A+44TKRrgd29vpQpKf9vjXfCNroeuqdXtlD0EmC3h0DxhEc8YQ4B0o4KSmLP/w+F8vJ7h20api3remf3180lwYPc7XX3DGlDwFM40Rc7nWxs0UekF7eZUZOcZByrTRMaJfh3YOTg+0p5+Zs8PDZmjipnBsklE5IPJ0FTtJCec//cSv2bk+PKaTt/9o/+Rt7GdL61yVAwplGVVlFg3IQ2BOqfA1+MrN+5houx1n6HTF3UIVJ5Aujq7JiOGtz782MNYvTfiZKrupPvf8knBPQ58Jt8DRh8oX9KsgnWMJaVm02qh9Q30uiEl1upTs0cpBL4VJRM0msceFCCKOnfy/663sQHfEIXaDTJ3sjfZhBWPqOoxPNoHXlbruC3I0GM/zgYm

提取码:
000000

*有效期至: 2022/08/27 20:38:09 GMT+08:00

评论 (3)

codingth 创建了训练问题
codingth 关联仓库设置为Ascend/modelzoo
zhujianpeng 负责人设置为张晓龙
zhujianpeng 任务状态TODO 修改为Analysing
展开全部操作日志

目前在910上测得的数据如下,一个step大概1.4秒,是3090的两倍
model.step方法执行结束用时: 0.5199794769287109
global step 1000 learning rate 0.7000 step-time 7.16 perplexity 1057.67
2021-12-07 21:35:02.540102: I tf_adapter/kernels/geop_npu.cc:765] The model has been compiled on the Ascend AI processor, current graph id is:71
eval: bucket 0 perplexity 284.96
model.step方法执行结束用时: 0.5195367336273193
global step 1200 learning rate 0.7000 step-time 1.41 perplexity 785.52
eval: bucket 0 perplexity 242.79
eval: bucket 1 perplexity 568.93

从性能数据看,AICPU上的LogUniformCandidateSampler耗时6ms多,调用次数也较多,另外AICORE的ScatterSub耗时也较多达到146ms,需要分析这两个算子是否可以优化,具体见信息见https://npucollector.obs.cn-north-4.myhuaweicloud.com/summary.zip
输入图片说明
输入图片说明
输入图片说明

经确认AICPU上的LogUniformCandidateSampler是个随机数产生算子,只能走AICPU串行,暂时没办法优化

好的,我知道了,谢谢老师

codingth 任务状态Analysing 修改为DONE
吴定远 关联仓库Ascend/modelzoo-his 修改为Ascend/modelzoo

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(2)
5559452 codingth 1632918985
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo

搜索帮助