一、问题现象(附报错日志上下文):
模型精度在NPU上比GPU差很多。通过精度三板斧分析法,检测出有算子溢出。
精度情况说明,由于原始数据集获取的问题,验证集采用训练集,验证结果在GPU上:
NPU上:
(截图只是三板斧某一步的指标)
二、软件版本:
-- CANN 版本 (e.g., CANN 3.0.x,5.x.x):
5.1.RC1.alpha005
--Tensorflow/Pytorch/MindSpore 版本:
1.15.0
--Python 版本 (e.g., Python 3.7.5):
3.7.5
-- MindStudio版本 (e.g., MindStudio 2.0.0 (beta3)):
--操作系统版本 (e.g., Ubuntu 18.04):
Ubuntu 18.04
三、测试步骤:
通过如下的检测步骤,第4步分析出有算子溢出。
请按下列步骤提供与GPU的精度对比数据和溢出检测的数据路径,如果哪步精度达标了就不需要再做下一步:
1.默认精度(即不开混合精度):
2.默认精度+关闭融合规则的精度(该步测试完后记得一定要打开融合规则,以免影响其它测试):
3.默认精度+LossScale的精度:
4.混合精度+LossScale下+溢出检测(如精度异常,请提供溢出检测数据OBS路径):
5.使用"force_fp32"+LossScale下的精度:
算子溢出情况:
溢出数据如下:
四、日志信息:
提取码:
111111
*有效期至: 2023/05/25 11:46:02 GMT+08:00
日志提供方式:
将日志打包后作为附件上传。若日志大小超出附件限制,则可上传至外部网盘后提供链接。
1.默认精度 (即不开混合精度):
之前用的大模型测的精度。后来统一用的小模型,现在补这步的精度结果。
2.默认精度+关闭融合规则的精度 (该步测试完后记得一定要打开融合规则,以免影响其它测试):
accuracy = 0.46469906
precision = 0.45598847
recall = 0.7870486
提取码:
111111
*有效期至: 2023/06/11 16:06:08 GMT+08:00
备:
提取码:
111111
*有效期至: 2023/06/11 16:08:14 GMT+08:00
提取码:
111111
*有效期至: 2023/06/11 16:08:41 GMT+08:00
4.使用"force_fp32"+LossScale下的精度:
accuracy = 0.5138889
precision = 0.47805455
recall = 0.501868
数据集路径:
提取码:
111111
*有效期至: 2023/06/11 20:58:38 GMT+08:00
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
登录 后才可以发表评论