一、问题现象(附报错日志上下文):
使用11/25日的最新镜像来在npu上面训练IEG,经过第一次训练之后发现模型的loss可以下降,但是精度不上升。怀疑是算子溢出导致的。所以进行了第二次训练收集算子溢出日志。
二、软件版本:
--Tensorflow版本:1.15
--Python 版本:Python 3.7.5
三、测试步骤:
使用modelarts再次运行了1000多个batch,收集了算子溢出的日志。
四、日志信息:
这是第一次训练时的日志信息,该日志是程序里面加入的打印的训练时的loss和acc。可以看到acc一直处于0.1左右。
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEf0r01bCDHB+It8bkxPm+sO/VoEQjcqMQBBvLNzASd/WC57mWIoqDz/EqQ1DCAReJCBCocieq5R9JHoXiZicOPaDkw/7Xfezugfv6GTI3V+yBLHVuhVV4VeCc93uBI6xZfIOFQ1iGYu47AXP9WuEB0OY6/2o+P3miMSh6s058aABi6D1Jq3awTr/HkbwMcLVRiJ8gT3oFgaUcPJ53B5rKGWmvCGP4cCAN1pRb5ZlF5ksfeeCsxHvK0y/zzsn9GUO2aw5YMCF+jzLWXYt4I2rIMY0UCw7N1ZCXCP05auqaxWJtIxK/yntNQkdg0pfFAYXanbbwPzwnwHEJ/XRAoafo6qd0eweNmtG2CHW5YgTXkuF
提取码为jkluio
这是第二次训练(为了收集算子溢出日志进行的训练),收集的算子溢出日志:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEf0r01bCDHB+It8bkxPm+sMh+lwO/ZgpW/KnjhKVF3ntUick3MH7owjEVQKsw9r1Uu9oejF82/MQy3JMbI/KUqRkoiT21+ky7qPfSl9SyVWsS8KRz+Z1R69PsNTns3/5BSDhsMAKQXIKwg+X/g+EGuFJGEueqQ5aHFiyKI6+9Yx6nPg8HRgxPUtIquRo+ASE5cpoAjKkOxTCfyC2ToSkzeRLMpR5RdHWqylDt1gUbJ+5rG6x0g87VdmBX8vSDK6tZxiI6VmSm6zwBJySTVS/GcR8r4jaUsFyIrM2xFQecPeJL+HJ4LM0owboN0O+AQ85Iw==
提取码:jkluio
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
训练时并没有开启混合精度和融合规则。
您好,尝试开启loss_scale后,遇到如下报错。
tensorflow:Error reported to Coordinator: 'NPULossScaleOptimizer' object has no attribute '_non_slot_dict'
详细日志如下:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pER9QSwg6bSwaXxPb+dDWbbZ6pzJb+1aL4rzkShw25OlWuGqRVTrs7PVxHgNlpv1+j7LS6NMNu/XJHVKpAwSYXUz8Tne+Rx5woOkwTVwsOy7PvDkRIj20YWvsqHehYXNsez3H64Tpitfe32+tlgu4UXaLdHKvkBgVjbpTyLax++D1u1QkRo4iTeq2ruaF8pHZ5idK39aTCYxNwJG76wDcwpfGsqewP4/ZLqmHI5Yvy4sTQkIAXUmFLKfD3sgwur/Sln2UUI2jsEG/6sunwMmUONDGpMtdK1aajWnjzMe3mTvw1vaA2Gar7eUlyV9QMQ4n2HHE4tRQth5QfqlnhudZwLhm5jO7h/y50Xp3CvQv3DcoaOLPx/EITJu8R/DwAEMN6D9MpdX8gyXSJgy8iM8ZQ8RHjI4BOUZj1WuaJ6SCc6e4+ufewrRJExG/8RBlfT6L/fyDN0NHUlMF1d02BTCHqXVtsAD1RvarE9fB080DW8nIdbz/tql+aWB4VQ2aE/kcow==
提取码为jkluio
还请issue附上网络脚本、数据集等OBS链接
代码文件分享:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEU6F6ENeq7h5y6pZnZIsqUMcj1l1S89vxX1d2G17s8U39FDl08ptzkrq4/5Xp0ZMmUrPen7QKQJgaMq6o4N84JYAsR4qKo3XRGZ3oZqbpbx3aaSDH/tY6heOBVCXJZ+ZMy3IpBm+ZDPtkZpz+IPEA3J0/FPFOWKA02TUkh8dFz/RBEJ2DR7geoYZ2c5gf6cEJA+SlX91k9cmxLgUL+6dC36rcvT4vs5YVZXjep2OxZ6xYaWMgOd0XujaFx8gklGMeUiMkLLCP4DG/GuST2pHSQ8LDqbNuRo+hDwmdti7ZExXYqF4mnk41OzmV+UHX91WV5BQ9WSIrE36lYeXXMknpWdsLAylQxu+t2tSrQmxH/iHeWfPaIDDJ7Mt6vJ1u9cK87fUlvqhSP6wt+9k9rT39ZDLnGAH6nWZrTtWGXe2CRWhFrTtWJ+E7mgBq21x40pfYUgpYlEGzdXaoUf6gcmSQI5B6lHui6UuMHtmbMWqeVk0uqBFq9GqfrckvMpoDUPZeg==
提取码:jkluio
数据集文件分享
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEU6F6ENeq7h5y6pZnZIsqUOPSzC/ZBjgn8Tq4ipMCLLdRH8Bxf7X99MEwUk4Ml0N+J7anRzQZ1VoGouk/tl0mT2LcnzbU+/yjWfmlTqfTfZSsbX6qwh1PloDUx52o06XyzdsCy7/Fvf9S2x5ZpDphcEVPAdklNzJzz28NmrdVGtBWYvzrOuiG79GgELDns7UWQTOwUmy8Xs7M9Ihqs4qdaH+1S6ezt4q8NnEPxYpQGoiiGINU2SrS1/mev23ZioGm/8FAXQ29ICveiILc0zapFxyNiADLfP3fvLbfVoaOB2tqhU/fUlzYgulUdrhCjDUqV4DW6O/q4xpa4JNpnIzd19uj8GmhsTrPAZR+pajQgLyFhXoHTt0Jv1g+PXy6LDtFQ==
提取码:jkluio
已联系同学 使用precision-tool进行溢出分析及定位。待反馈结果
溢出的算子不用工具直接看溢出数据的数据名就能找到,请把溢出的算子加入到黑名单后再跑下精度试下
将InTopKD放入黑名单后loss直接爆炸,已让学生把溢出检测LOG再附上来
数据和代码在obs上的路径如下:
数据:obs://lwr-npu/data/
代码:obs://lwr-npu/iegluojidump/
分享一下七个月前尝试开启loss_scale后,遇到如下报错的日志。
tensorflow:Error reported to Coordinator: 'NPULossScaleOptimizer' object has no attribute '_non_slot_dict'
日志地址:obs://lwr-npu/MA-new-ieg_npu_20211015224157-12-06-14-44/log/
此问题新版本已解决,issue关闭;请验证,如有后续问题提新issue
登录 后才可以发表评论