一、问题现象(附报错日志上下文):
模型初始化图就需要5个小时,在模型训练时,平均一item要跑6s,而在CPU上一个item只需要5s。
二、软件版本:
-- CANN 版本 5.0.2:
--Tensorflow 版本:1.15
--Python 版本 :3.7
三、测试步骤:
xxxx
四、日志信息:
日志链接:
链接:https://pan.baidu.com/s/1zT1i7N4KQfV7XbiZ5HHVjQ
提取码:xelb
有效期:30天
数据集链接:
URL:链接
提取码:
123456
迁移后代码链接:
链接:https://pan.baidu.com/s/1PY-3CHle_J_Z_mfLOY2-RA
提取码:ohbz
有效期:30天
数据集的百度云链接:https://pan.baidu.com/s/1IKFPbz09YVA4fj1Q7jaP8w
提取码:3myc
有效期:30天
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
你好,我们需要收集profiling数据
按照如下参考,收集一下profiling数据信息呢。
https://support.huaweicloud.com/tfmigr-cann504alpha1training/atlasmprtg_13_0040.html
麻烦附上OBS链接,另附网络脚本及数据集OBS链接
在图初始化时出现以下错误导致模型无法训练,无法产生profiling数据
time="2021-12-15T13:13:43+08:00" level=error msg="upload obs file err: upload object with error: open /home/ma-user/modelarts/log/modelarts-job-835fbd71-642f-4ffe-9017-7a0c6967d9e4/ascend/process_log/rank_0/plog/plog-85_20211215131226638.log: no such file or directory, fileName=modelarts-job-835fbd71-642f-4ffe-9017-7a0c6967d9e4/ascend/process_log/rank_0/plog/plog-85_20211215131226638.log, size=20575694, authLenth=62" file="upload.go:143" Command=obs/sync_by_channels Component=ma-training-toolkit Ctx=log_url Platform=ModelArts-Service
提取码:
123456
提取码:
123456
*有效期至: 2022/06/14 11:06:19 GMT+08:00
日志obs链接:
https://tozi1.obs.cn-north-4.myhuaweicloud.com:443/MA-new-as_npu1-12-15-12-34/log/modelarts-job-835fbd71-642f-4ffe-9017-7a0c6967d9e4-worker-0.log?AccessKeyId=RRFW1LB71GT4JQF85OEB&Expires=1655176057&Signature=wkg4Q7GBI1epnZB%2BYwOPQ5OVUMk%3D
建议可开启混合精度,提高性能。验证过程中如果精度有损失,可参照文档链接再添加动态loss scale。
https://support.huaweicloud.com/tfmigr-cann503alpha2training/atlasmprtg_13_0038.html
提取码:
123456
提取码:
123456
提取码:
123456
*有效期至: 2022/12/30 10:36:12 GMT+08:00
登录 后才可以发表评论