name | about | labels |
---|---|---|
Bug Report | Use this template for reporting a bug | kind/bug |
GPU A100 CUDA:11.6 算子测试运行效率低,测试了ops.add()、ops.BatchMatMul()运行15-18min才出结果
同步对比测试用例在V100:CUDA 11.4和NPU 910 在10-20s出结果。
相同机器和镜像环境,安装pytorch进行算子测试,均1s内出结果
GPU A100
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_Mar__8_18:18:20_PST_2022
Cuda compilation tools, release 11.6, V11.6.124
Build cuda_11.6.r11.6/compiler.31057947_0
Software Environment:
-- MindSpore 1.6.1
-- Python 3.7.5
-- Ubuntu 20.04.4 LTS
-- gcc version 9.4.0 (Ubuntu 9.4.0-1ubuntu1~20.04.1)
Excute Mode:
docker 环境下
from mindspore import Tensor
import numpy as np
import mindspore
import mindspore.ops as ops
x = Tensor(np.ones(shape=[2, 4, 1, 3]), mindspore.float32)
y = Tensor(np.ones(shape=[2, 4, 3, 4]), mindspore.float32)
batmatmul = ops.BatchMatMul()
print(batmatmul(x, y))
或者
import numpy as np
from mindspore import Tensor
import mindspore.ops as ops
import mindspore.context as context
context.set_context(device_target="GPU")
x = Tensor(np.ones([1,3,3,4]).astype(np.float32))
y = Tensor(np.ones([1,3,3,4]).astype(np.float32))
print(ops.add(x, y))
两个测试用例运行时长均在15-18分钟左右,可看到显存分配占用过程。
同步对比测试用例在V100:CUDA 11.4和NPU 910 在10-20s出结果。
算子运行效率在秒级
算子运行测试截图
GPU A100运行paugu模型出现如果所示报错,定位到测试相关算子,发现算子运行效率低
Please assign maintainer to check this issue.
请为此issue分配处理人。
@fangwenyi @chengxiaoli
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
Please add labels (comp or sig), also you can visit https://gitee.com/mindspore/community/blob/master/sigs/dx/docs/labels.md to find more.
为了让代码尽快被审核,请您为Pull Request打上 组件(comp)或兴趣组(sig) 标签,打上标签的PR可直接推送给责任人进行审核。
更多的标签可以查看https://gitee.com/mindspore/community/blob/master/sigs/dx/docs/labels.md
以组件相关代码提交为例,如果你提交的是data组件代码,你可以这样评论:
//comp/data
当然你也可以邀请data SIG组来审核代码,可以这样写:
//sig/data
另外你还可以给这个PR标记类型,例如是bugfix或者是特性需求:
//kind/bug or //kind/feature
恭喜你,你已经学会了使用命令来打标签,接下来就在下面的评论里打上标签吧!
慢的问题可能是gpu的初始化慢,可以尝试同个用例里,多次调用add, 看是否只是第一次慢
是这样,但是请查看上述:
同步对比测试用例在V100:CUDA 11.4和NPU 910 在10-20s出结果。
目前适配版本是11.1。是和TF/Pytorch保持一致的。
11.6版本有点高,目前还没适配计划
登录 后才可以发表评论