2.3K Star 8.1K Fork 4.3K

GVPMindSpore / mindspore

 / 详情

[高校贡献]CTC网络性能问题

DONE
RFC
创建于  
2021-12-16 00:23

mindspore1.3 ASCEND910
问题描述:
使用CTCLoss训练LSTM模型,在ASCEND上性能很差,单步约5400ms,对照着mindspore代码改的torch代码在V100上的速度为单步2800ms
mindspore代码在GPU上速度较快,单步约700多ms,要快于torch
性能截图:
输入图片说明
输入图片说明
PR链接:
https://gitee.com/mindspore/models/pulls/705#note_7867944
profile数据网盘链接:
链接:https://pan.baidu.com/s/16escCj-WvRVPpHVT_n24zA
提取码:tuch

评论 (13)

sdau20171754 创建了Empty-Template
i-robot 添加了
 
stat/wait-response
标签
展开全部操作日志

//mindspore-assistant

sdau20171754 修改了描述
sdau20171754 修改了描述
sdau20171754 修改了描述
fangwenyi 任务状态TODO 修改为ACCEPTED
fangwenyi 负责人设置为liangchenghui
fangwenyi 任务类型Empty-Template 修改为RFC
fangwenyi 添加了
 
mindspore-assistant
标签
fangwenyi 任务类型RFC 修改为Bug-Report
fangwenyi 优先级设置为主要
fangwenyi 里程碑设置为B-SIG-ModelZoo

问题已经转给mindspore开发人员,请耐心等待,谢谢

Ascend算子性能问题,我们统一规划在22年能解决

fangwenyi 任务类型Bug-Report 修改为RFC
fangwenyi 里程碑B-SIG-ModelZoo 修改为未设置
fangwenyi 里程碑设置为IT-网络生态-TODO

建议使用最新的master版本再试试。R1.3已经是比较老的版本了。同时BatchSize要使用16的倍数。
如果master版本也有性能问题,我们会统一规划在22年解决。

1.5.1版本性能依旧很差。batch size设置为64

DynamicRNN所有input的shape和dtype是什么?贴上来看看。

抱歉,一直忘了看,dynamic rnn包括两个输入,一个是feature(输入向量),shape为[128,1555,39],dtype为float32,另一个是masks(掩码),shape为[128,1555,256],dtype为float32

@sdau20171754 能回答下liangchenghui的问题吗? 否则问题没法进一步看

看输入的shape, seq_length应该是1555,padding成16的倍数试一下

@sdau20171754 你好,这个问题解决了吗

liangchenghui 添加了
 
rct/cann
标签

您好,由于问题单时间较长可能会有版本gap暂时关闭,如您尝试新版本仍无法解决,可以反馈下具体信息,并将ISSUE状态修改为WIP,我们这边会进一步跟踪,谢谢

Shawny 任务状态ACCEPTED 修改为DONE
i-robot 添加了
 
gitee
标签

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(5)
6561470 liangchenghui 1584762793 8108889 shawny233 1628167362
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore

搜索帮助