seq2seq模型在modelarts上,选择GPUv100验证模型在v100上的性能时,发现模型训练速度比3090训练速度慢,3090一个step需要0.7秒左右,v100一个step需要2.5秒左右。
通过分析,发现数据预处理阶段耗时不严重,执行训练部分耗时严重,如下图所示。
请问老师还有什么别的办法能分析在GPU上训练的性能问题呢?
-- Tensorflow 版本: TF1.13.1
-- Python 版本: python 3.6
提取码:
000000
*有效期至: 2022/08/27 20:36:45 GMT+08:00
提取码:
000000
*有效期至: 2022/08/27 20:38:09 GMT+08:00
目前在910上测得的数据如下,一个step大概1.4秒,是3090的两倍
model.step方法执行结束用时: 0.5199794769287109
global step 1000 learning rate 0.7000 step-time 7.16 perplexity 1057.67
2021-12-07 21:35:02.540102: I tf_adapter/kernels/geop_npu.cc:765] The model has been compiled on the Ascend AI processor, current graph id is:71
eval: bucket 0 perplexity 284.96
model.step方法执行结束用时: 0.5195367336273193
global step 1200 learning rate 0.7000 step-time 1.41 perplexity 785.52
eval: bucket 0 perplexity 242.79
eval: bucket 1 perplexity 568.93
从性能数据看,AICPU上的LogUniformCandidateSampler耗时6ms多,调用次数也较多,另外AICORE的ScatterSub耗时也较多达到146ms,需要分析这两个算子是否可以优化,具体见信息见https://npucollector.obs.cn-north-4.myhuaweicloud.com/summary.zip
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
登录 后才可以发表评论