74 Star 219 Fork 167

Ascend / modelzoo

 / 详情

【众智】【西安交通大学】【ID2049】【IEG】NPU训练精度不上升

DONE
Bug-Report
创建于  
2021-11-27 21:23

一、问题现象(附报错日志上下文):
使用11/25日的最新镜像来在npu上面训练IEG,经过第一次训练之后发现模型的loss可以下降,但是精度不上升。怀疑是算子溢出导致的。所以进行了第二次训练收集算子溢出日志。

二、软件版本:
--Tensorflow版本:1.15
--Python 版本:Python 3.7.5
三、测试步骤:
使用modelarts再次运行了1000多个batch,收集了算子溢出的日志。
四、日志信息:
这是第一次训练时的日志信息,该日志是程序里面加入的打印的训练时的loss和acc。可以看到acc一直处于0.1左右。
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEf0r01bCDHB+It8bkxPm+sO/VoEQjcqMQBBvLNzASd/WC57mWIoqDz/EqQ1DCAReJCBCocieq5R9JHoXiZicOPaDkw/7Xfezugfv6GTI3V+yBLHVuhVV4VeCc93uBI6xZfIOFQ1iGYu47AXP9WuEB0OY6/2o+P3miMSh6s058aABi6D1Jq3awTr/HkbwMcLVRiJ8gT3oFgaUcPJ53B5rKGWmvCGP4cCAN1pRb5ZlF5ksfeeCsxHvK0y/zzsn9GUO2aw5YMCF+jzLWXYt4I2rIMY0UCw7N1ZCXCP05auqaxWJtIxK/yntNQkdg0pfFAYXanbbwPzwnwHEJ/XRAoafo6qd0eweNmtG2CHW5YgTXkuF
提取码为jkluio
这是第二次训练(为了收集算子溢出日志进行的训练),收集的算子溢出日志:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEf0r01bCDHB+It8bkxPm+sMh+lwO/ZgpW/KnjhKVF3ntUick3MH7owjEVQKsw9r1Uu9oejF82/MQy3JMbI/KUqRkoiT21+ky7qPfSl9SyVWsS8KRz+Z1R69PsNTns3/5BSDhsMAKQXIKwg+X/g+EGuFJGEueqQ5aHFiyKI6+9Yx6nPg8HRgxPUtIquRo+ASE5cpoAjKkOxTCfyC2ToSkzeRLMpR5RdHWqylDt1gUbJ+5rG6x0g87VdmBX8vSDK6tZxiI6VmSm6zwBJySTVS/GcR8r4jaUsFyIrM2xFQecPeJL+HJ4LM0owboN0O+AQ85Iw==
提取码:jkluio

评论 (18)

虽千万人吾往矣 创建了Bug-Report
虽千万人吾往矣 修改了描述
展开全部操作日志

训练时并没有开启混合精度和融合规则。

wangxiaodan1103 任务状态TODO 修改为Analysing
wangxiaodan1103 负责人设置为张晓龙

我看这个loss scale是在开启混合精度的情况下开启的。我本来就没有开启混合精度,请问还要开启loss scale吗?

补充上一条的回复,代码里面的optimizer是tf.train.MomentumOptimizer

张晓龙 负责人张晓龙 修改为未设置
张晓龙 添加协作者张晓龙
张晓龙 负责人设置为hanfuwei

还请issue附上网络脚本、数据集等OBS链接

代码文件分享:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEU6F6ENeq7h5y6pZnZIsqUMcj1l1S89vxX1d2G17s8U39FDl08ptzkrq4/5Xp0ZMmUrPen7QKQJgaMq6o4N84JYAsR4qKo3XRGZ3oZqbpbx3aaSDH/tY6heOBVCXJZ+ZMy3IpBm+ZDPtkZpz+IPEA3J0/FPFOWKA02TUkh8dFz/RBEJ2DR7geoYZ2c5gf6cEJA+SlX91k9cmxLgUL+6dC36rcvT4vs5YVZXjep2OxZ6xYaWMgOd0XujaFx8gklGMeUiMkLLCP4DG/GuST2pHSQ8LDqbNuRo+hDwmdti7ZExXYqF4mnk41OzmV+UHX91WV5BQ9WSIrE36lYeXXMknpWdsLAylQxu+t2tSrQmxH/iHeWfPaIDDJ7Mt6vJ1u9cK87fUlvqhSP6wt+9k9rT39ZDLnGAH6nWZrTtWGXe2CRWhFrTtWJ+E7mgBq21x40pfYUgpYlEGzdXaoUf6gcmSQI5B6lHui6UuMHtmbMWqeVk0uqBFq9GqfrckvMpoDUPZeg==
提取码:jkluio
数据集文件分享
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=9+oeih3dqGpApwz5L7XYTqTCYMrcTkKBu8+Efrtzc+RsGPST4Aa9rpHCh/i/lxbFwG1uRfzaBHhOTdFlIQWK07bEoyCkT+sVskU6duKZ95SA9bXhKGMU0M/BhnGXM2HIPLF0h5ta9fm+nVRIT9BhupzLpMTHhfWALsG47jVR7Uoah4eJP5Hu6BJ4svju2P+uEdvI9D6WsJH7xEpmP08pEU6F6ENeq7h5y6pZnZIsqUOPSzC/ZBjgn8Tq4ipMCLLdRH8Bxf7X99MEwUk4Ml0N+J7anRzQZ1VoGouk/tl0mT2LcnzbU+/yjWfmlTqfTfZSsbX6qwh1PloDUx52o06XyzdsCy7/Fvf9S2x5ZpDphcEVPAdklNzJzz28NmrdVGtBWYvzrOuiG79GgELDns7UWQTOwUmy8Xs7M9Ihqs4qdaH+1S6ezt4q8NnEPxYpQGoiiGINU2SrS1/mev23ZioGm/8FAXQ29ICveiILc0zapFxyNiADLfP3fvLbfVoaOB2tqhU/fUlzYgulUdrhCjDUqV4DW6O/q4xpa4JNpnIzd19uj8GmhsTrPAZR+pajQgLyFhXoHTt0Jv1g+PXy6LDtFQ==
提取码:jkluio

hanfuwei 添加协作者hanfuwei
hanfuwei 负责人hanfuwei 修改为wangxingzhen
hanfuwei 取消协作者hanfuwei
李想 修改了标题

已联系同学 使用precision-tool进行溢出分析及定位。待反馈结果

吴定远 关联仓库Ascend/modelzoo-his 修改为Ascend/modelzoo

溢出的算子不用工具直接看溢出数据的数据名就能找到,请把溢出的算子加入到黑名单后再跑下精度试下

将InTopKD放入黑名单后loss直接爆炸,已让学生把溢出检测LOG再附上来

数据和代码在obs上的路径如下:
数据:obs://lwr-npu/data/
代码:obs://lwr-npu/iegluojidump/

分享一下七个月前尝试开启loss_scale后,遇到如下报错的日志。
tensorflow:Error reported to Coordinator: 'NPULossScaleOptimizer' object has no attribute '_non_slot_dict'
日志地址:obs://lwr-npu/MA-new-ieg_npu_20211015224157-12-06-14-44/log/

这个功能报错请用最新版本的镜像跑一下看错误是什么

此问题新版本已解决,issue关闭;请验证,如有后续问题提新issue

任闯闯 任务状态Analysing 修改为DONE

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(6)
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo

搜索帮助