[北邮]-[Seq2Seq]-[ModelArts-GPUv100-训练性能问题]

一、问题描述

seq2seq模型在modelarts上，选择GPUv100验证模型在v100上的性能时，发现模型训练速度比3090训练速度慢，3090一个step需要0.7秒左右，v100一个step需要2.5秒左右。

3090训练截图

输入图片说明

v100训练截图

输入图片说明
通过分析，发现数据预处理阶段耗时不严重，执行训练部分耗时严重，如下图所示。

训练日志截图

输入图片说明
请问老师还有什么别的办法能分析在GPU上训练的性能问题呢？

二、软件版本

-- Tensorflow 版本: TF1.13.1
-- Python 版本: python 3.6

三、训练脚本文件和日志文件链接

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFV8oLFMUsEijdFipA0iY0X8DgSY4ZOyLx4yB4XboabpE+wPbvEMzgQJirqHMQYbLQEFc+D+RsRKXjAf38vMPTI30LFz490KO4kOGtc9nv+9V89/crx4qNxX+qImT3NQa7JWMxW/j1vLJF9Uo68rUGUSq4OHLdw3D64SVKj5q/PgXVJZb6W/KcjpdLmyrgC0g0wuHlBpfNpJvGGd9rYvjTlfAdBXbEz1f35UT3qf9XVrSL9q6e2Uw9bmHoOBTLpu9uysvAOvNIP9Tusw+isV+cHIemt8MfqbvS467OvaEy9a0UShdYFgVAu3CECKgHTHGJdu8ejjUXk/JftkVx56s6TtuEo5YRuT4q+zVFSin2tVweers21PM232wmA8aBb2t4KixCPrfY/hlYvdwc/VHm6EiC93uFUVFVB8Ch+KGyLTV1yfN4pZeBZ9o5NGrN8zuOMt7k5UST1uMFGFLpRZm8YL8fL7ib9GZzrMYIAuUqREiNWJdQAtehX58eRumN6xJkJ7Ba22lt7fg9Q4qO+/VMCeqD8fOSfFEzDv+r+jPgqbzdoVZS96OFO2E/FsjypjbSvtCVdCO+Yvl4IyyK4bocU

提取码:
000000

*有效期至: 2022/08/27 20:36:45 GMT+08:00

四、数据集链接

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=Zus/GLs7BDdmMU//5XYMyWZxnEO35Xm0DaZogC5j8AFDQ1GomoNr0wJti5uI0Uq/N9FZrSABlO3ijTDkjNT5dINcaJCVO6E/uHcSWQJnOUu2XCz8QMIiMYF9wokagkwd3QexAaTMxa2sRE+eiNy5kTq48gfeF0Amw13uVH/QsRhvaLjpMyPEpHJIl9WEcS5A+44TKRrgd29vpQpKf9vjXfCNroeuqdXtlD0EmC3h0DxhEc8YQ4B0o4KSmLP/w+F8vJ7h20api3remf3180lwYPc7XX3DGlDwFM40Rc7nWxs0UekF7eZUZOcZByrTRMaJfh3YOTg+0p5+Zs8PDZmjipnBsklE5IPJ0FTtJCec//cSv2bk+PKaTt/9o/+Rt7GdL61yVAwplGVVlFg3IQ2BOqfA1+MrN+5houx1n6HTF3UIVJ5Aujq7JiOGtz782MNYvTfiZKrupPvf8knBPQ58Jt8DRh8oX9KsgnWMJaVm02qh9Q30uiEl1upTs0cpBL4VJRM0msceFCCKOnfy/663sQHfEIXaDTJ3sjfZhBWPqOoxPNoHXlbruC3I0GM/zgYm

提取码:
000000

*有效期至: 2022/08/27 20:38:09 GMT+08:00

目前在910上测得的数据如下，一个step大概1.4秒，是3090的两倍
model.step方法执行结束用时： 0.5199794769287109
global step 1000 learning rate 0.7000 step-time 7.16 perplexity 1057.67
2021-12-07 21:35:02.540102: I tf_adapter/kernels/geop_npu.cc:765] The model has been compiled on the Ascend AI processor, current graph id is:71
eval: bucket 0 perplexity 284.96
model.step方法执行结束用时： 0.5195367336273193
global step 1200 learning rate 0.7000 step-time 1.41 perplexity 785.52
eval: bucket 0 perplexity 242.79
eval: bucket 1 perplexity 568.93

从性能数据看，AICPU上的LogUniformCandidateSampler耗时6ms多，调用次数也较多，另外AICORE的ScatterSub耗时也较多达到146ms,需要分析这两个算子是否可以优化，具体见信息见https://npucollector.obs.cn-north-4.myhuaweicloud.com/summary.zip
输入图片说明

经确认AICPU上的LogUniformCandidateSampler是个随机数产生算子，只能走AICPU串行，暂时没办法优化

好的，我知道了，谢谢老师

Ascend / modelzoo

内容风险标识