74 Star 218 Fork 167

Ascend / modelzoo

 / 详情

【众智】【西北工业大学】【ID1245】【ADA-Net】不同镜像的训练精度问题

DONE
Bug-Report
创建于  
2021-12-21 20:48

一、问题现象(附报错日志上下文):
ADA-Net在不同版本的镜像中训练的精度结果差异较大,如下表所示:

GPU 1101 1207 1217
94.32 93.92 92.20 精度无法上升

四、日志信息:
NPU的1207镜像(ascend-share/5.0.4.alpha002_tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-21.0.2_1207)日志的obs链接如下:
URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=M8Sy2k6MQk70Ngqb6sh9AZJhz2zSiLfqqyvCXh8E/jc7IqRrhVbSB4E4St3ro/KKnynBB5+1QmUCe7cp7lF6PVKPQvs++eyNC6sdpuyQUd9YBZHfYXazmb/ZIGRY0Awm4mkNjcXyjYcLfa6BeeHfAIwRK3Sc8Dqk2Ii9nMDM4u7PHl6iB8EdAZc5j62pt3Cs7E5noLQWQYxUdpKuflS0bWOr7szMJ+EoJx8xIWe6YmpNNFdMBmg8UP9IleQ5cVgcSJSYsf6j9rDO8kf3rp0vbZNUOWSLS/HvROy6apC+gmA3r5qr6VwfjJhbyDJqOHZxOqo16gsedEdg+owwAocNFZFollxxpvgGATRwf7zVrzJe1WmSSO0OOLryeN2NFMS51l5omeiWsV80f4i4tc5nxkEBybLG2rnkFTDs/ci5QwsoyxoPPqt2WMjaLwlK2+yTjlYQPoKLWTg6xGmYJPl5SPYKBCm363n+ncx/aBYgHnAwtTZlRsJu+duKQMXoYtbm6xEKVKcMGrO2JBWIIhoYgP0Cp3tnXBPAIpoA9qKnyOIB2nsAQzvZwadgIbE8AsdMnnK8pv44IldsB3GMWDm2rCq7IuNiIQQ1rXI8XZa0IgxaXob1mHsuD4WD2D2nr278AQdcmDAC29Gvcflz96x0NoJB2Znyyx/nm5F4C2X0R8w=

提取码:
123456

*有效期至: 2022/12/16 20:41:30 GMT+08:00

NPU的1217镜像日志的obs链接如下
URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=M8Sy2k6MQk70Ngqb6sh9AZJhz2zSiLfqqyvCXh8E/jc7IqRrhVbSB4E4St3ro/KKnynBB5+1QmUCe7cp7lF6PVKPQvs++eyNC6sdpuyQUd9YBZHfYXazmb/ZIGRY0Awm4mkNjcXyjYcLfa6BeeHfAIwRK3Sc8Dqk2Ii9nMDM4u7PHl6iB8EdAZc5j62pt3Cs7E5noLQWQYxUdpKuflS0bWOr7szMJ+EoJx8xIWe6YmoGmnxerhO4QMLpVMIdc8JlxRZG/TbgF61xRVIYCKwNRy0aAzqRPz+49C6LSYGHoIrYzgb/OYtOJuleMgrpsiDJ+qRrkIoslbGUz6ZL+UlqUo7GBUTJxOjfXsj/nQ9C40HJhfBT7lLNO108G7mjGiADW/05JpBjcMrOY6jxBXS+aMYXz7exuCNpyENRi8yf63z4RZvk+pPS5UAbnXgwTFudRqenow3b6RPTVUslz0RY0HZLzsQdacXWbG2++uy34D8aLrHzyipeP0INqL8JiVoVZQla3mPhoTsY2AKCNyoi23Ewb9mQHg7ylZw5haKEoMXK7pZxJjkaZt6nxncn0DlFgP9/7sZhkKleS9lletAbt9QWEr8nCnwlT2Z0feI3jELO+DBBS57kIS5DlMbfZDTEO4jfxqr3dGt7o/M/HArK/weFj7wgEJHGT41Rpyci7h4=

提取码:
123456

*有效期至: 2022/12/16 20:44:39 GMT+08:00

NPU的1101镜像日志的obs链接如下:
URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=M8Sy2k6MQk70Ngqb6sh9AZJhz2zSiLfqqyvCXh8E/jc7IqRrhVbSB4E4St3ro/KKnynBB5+1QmUCe7cp7lF6PVKPQvs++eyNC6sdpuyQUd9YBZHfYXazmb/ZIGRY0Awm4mkNjcXyjYcLfa6BeeHfAIwRK3Sc8Dqk2Ii9nMDM4u7PHl6iB8EdAZc5j62pt3Cs7E5noLQWQYxUdpKuflS0bWOr7szMJ+EoJx8xIWe6YmrmelD+xDVRpOhNNpdjLq/uvJV82H9MpBi3x11rD9RoG0+z5WRjWBkHNCJ5brYqy440NrDlrhiPJ2OsmX+JL/Cgt+R0ephwV3JJUBu6NleaR7qa+7xfhQ7nMTUfYAC+2jGYn7/14tqMV+eBz3HvSXDk30jiUF0+dBLjd5ckxzB8WFsHX3VqEcYVGphyu6AwfQasVLJcwePOCqZQJyojEnpd9MjMygFrk+kMFNHT0cRVjUCP7Udf4PGEVlwqjFlESj1xvZ5i+edtvpX2O8/OzuXcTHlBZmp3qObBDNwEwaq7vlXmHSeZKw5o0mAsnTypu303F+sK4WXGjkLh6pi1CUug0+8wkNgU8ZyVKDhbHIawnxmjpStplvs3CueZXkD7zAoBG3q3sjKJqDdjPcejVu1R

提取码:
123456

*有效期至: 2022/12/16 20:46:29 GMT+08:00

评论 (6)

郭忠昌 创建了Bug-Report
wangxiaodan1103 任务状态TODO 修改为Analysing
wangxiaodan1103 负责人设置为张晓龙
展开全部操作日志

这个问题我们会尽快分析定位。

你好,开启混合精度后,是不是没有开启loss scale?

开启方式链接参考:适用于一个session run搭配一个优化器场景

https://support.huaweicloud.com/tfmigr-cann504alpha1training/atlasmprtg_13_0038.html

张晓龙 负责人张晓龙 修改为未设置
张晓龙 添加协作者张晓龙
张晓龙 负责人设置为hanfuwei

请采用精度三板斧分析一下:

第一步,关闭所有融合规则,能跑通,说明融合规则有问题,融合导致精度损失,不能,则有继续第二步。
https://support.huaweicloud.com/fusionref-cann504alpha2training/atlasrr_30_0001.html#section3
 
第二步,混合精度 + loss scale (利用NAN丢弃小特性)。 如果还是不行,则进行第三步 
https://support.huaweicloud.com/tfmigr-cann504alpha2training/atlasmprtg_13_0037.html
 
第三步:溢出检测,检测溢出算子。检测结果发到issue里面
https://support.huaweicloud.com/tfmigr-cann504alpha2training/atlasmprtg_13_0042.html

李想 修改了描述
李想 修改了标题

模型精度在最新版本已经验收通过

颜亚文 任务状态Analysing 修改为DONE
吴定远 关联仓库Ascend/modelzoo-his 修改为Ascend/modelzoo

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(4)
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo

搜索帮助