一、问题现象(附报错日志上下文):
ADA-Net在不同版本的镜像中训练的精度结果差异较大,如下表所示:
GPU | 1101 | 1207 | 1217 |
---|---|---|---|
94.32 | 93.92 | 92.20 | 精度无法上升 |
四、日志信息:
NPU的1207镜像(ascend-share/5.0.4.alpha002_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_1207)日志的obs链接如下:
URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=M8Sy2k6MQk70Ngqb6sh9AZJhz2zSiLfqqyvCXh8E/jc7IqRrhVbSB4E4St3ro/KKnynBB5+1QmUCe7cp7lF6PVKPQvs++eyNC6sdpuyQUd9YBZHfYXazmb/ZIGRY0Awm4mkNjcXyjYcLfa6BeeHfAIwRK3Sc8Dqk2Ii9nMDM4u7PHl6iB8EdAZc5j62pt3Cs7E5noLQWQYxUdpKuflS0bWOr7szMJ+EoJx8xIWe6YmpNNFdMBmg8UP9IleQ5cVgcSJSYsf6j9rDO8kf3rp0vbZNUOWSLS/HvROy6apC+gmA3r5qr6VwfjJhbyDJqOHZxOqo16gsedEdg+owwAocNFZFollxxpvgGATRwf7zVrzJe1WmSSO0OOLryeN2NFMS51l5omeiWsV80f4i4tc5nxkEBybLG2rnkFTDs/ci5QwsoyxoPPqt2WMjaLwlK2+yTjlYQPoKLWTg6xGmYJPl5SPYKBCm363n+ncx/aBYgHnAwtTZlRsJu+duKQMXoYtbm6xEKVKcMGrO2JBWIIhoYgP0Cp3tnXBPAIpoA9qKnyOIB2nsAQzvZwadgIbE8AsdMnnK8pv44IldsB3GMWDm2rCq7IuNiIQQ1rXI8XZa0IgxaXob1mHsuD4WD2D2nr278AQdcmDAC29Gvcflz96x0NoJB2Znyyx/nm5F4C2X0R8w=
提取码:
123456
*有效期至: 2022/12/16 20:41:30 GMT+08:00
提取码:
123456
*有效期至: 2022/12/16 20:44:39 GMT+08:00
提取码:
123456
*有效期至: 2022/12/16 20:46:29 GMT+08:00
这个问题我们会尽快分析定位。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
你好,开启混合精度后,是不是没有开启loss scale?
开启方式链接参考:适用于一个session run搭配一个优化器场景
https://support.huaweicloud.com/tfmigr-cann504alpha1training/atlasmprtg_13_0038.html
提取码:
123456
*有效期至: 2022/12/25 08:23:28 GMT+08:00
请采用精度三板斧分析一下:
第一步,关闭所有融合规则,能跑通,说明融合规则有问题,融合导致精度损失,不能,则有继续第二步。
https://support.huaweicloud.com/fusionref-cann504alpha2training/atlasrr_30_0001.html#section3
第二步,混合精度 + loss scale (利用NAN丢弃小特性)。 如果还是不行,则进行第三步
https://support.huaweicloud.com/tfmigr-cann504alpha2training/atlasmprtg_13_0037.html
第三步:溢出检测,检测溢出算子。检测结果发到issue里面
https://support.huaweicloud.com/tfmigr-cann504alpha2training/atlasmprtg_13_0042.html
模型精度在最新版本已经验收通过
登录 后才可以发表评论