mindspore1.3 ASCEND910
问题描述:
使用CTCLoss训练LSTM模型,在ASCEND上性能很差,单步约5400ms,对照着mindspore代码改的torch代码在V100上的速度为单步2800ms
mindspore代码在GPU上速度较快,单步约700多ms,要快于torch
性能截图:
PR链接:
https://gitee.com/mindspore/models/pulls/705#note_7867944
profile数据网盘链接:
链接:https://pan.baidu.com/s/16escCj-WvRVPpHVT_n24zA
提取码:tuch
//mindspore-assistant
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
/mindspore-assistant
问题已经转给mindspore开发人员,请耐心等待,谢谢
Ascend算子性能问题,我们统一规划在22年能解决
建议使用最新的master版本再试试。R1.3已经是比较老的版本了。同时BatchSize要使用16的倍数。
如果master版本也有性能问题,我们会统一规划在22年解决。
1.5.1版本性能依旧很差。batch size设置为64
DynamicRNN所有input的shape和dtype是什么?贴上来看看。
抱歉,一直忘了看,dynamic rnn包括两个输入,一个是feature(输入向量),shape为[128,1555,39],dtype为float32,另一个是masks(掩码),shape为[128,1555,256],dtype为float32
@sdau20171754 能回答下liangchenghui的问题吗? 否则问题没法进一步看
看输入的shape, seq_length应该是1555,padding成16的倍数试一下
@sdau20171754 你好,这个问题解决了吗
您好,由于问题单时间较长可能会有版本gap暂时关闭,如您尝试新版本仍无法解决,可以反馈下具体信息,并将ISSUE状态修改为WIP,我们这边会进一步跟踪,谢谢
登录 后才可以发表评论