登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
AI 队友
登录
注册
轻量养虾,开箱即用!低 Token + 稳定算力,Gitee & 模力方舟联合出品的 PocketClaw 正式开售!点击了解详情
代码拉取完成,页面将自动刷新
仓库状态说明
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
68
Star
258
Fork
191
Ascend
/
modelzoo
暂停
代码
Issues
157
Pull Requests
9
Wiki
统计
流水线
服务
JavaDoc
PHPDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
开发画像分析
我知道了,不再自动展开
更新失败,请稍后重试!
移除标识
内容风险标识
本任务被
标识为内容中包含有代码安全 Bug 、隐私泄露等敏感信息,仓库外成员不可访问
[TF-Adapter][哈工大] NPU上训练 模型不收敛 npu间歇使用 tf-adapter持续报信息 算子溢出
DONE
#I24RPZ
Bug-Report
鸿铭要开心
创建于
2020-11-11 13:59
## Environment - **Hardware Environment(`Ascend`/`GPU`/`CPU`)**: -- ascend 910 -- Apulis - **Software Environment**: -- Python 3.7.5 -- GCC 7.5.0 ## 问题描述 1. 我们在npu上训练时出现不收敛的现象,尤其是有一个loss 往1处收敛,如图1所示;相同的代码,在GPU上训练的收敛程度如图2所示   2. 我们检测了训练时npu的占用情况,其呈现波峰式占用,表现异常,如图三所示  3. 我们在训练的过程中,TF-Adapter不断地报如下的信息: ``` 2020-11-09 14:44:03.372754: I tf_adapter/kernels/geop_npu.cc:388] [GEOP] Begin GeOp::ComputeAsync, kernel_name:GeOp3_0, num_inputs:5, num_outputs:2 2020-11-09 14:44:03.372913: I tf_adapter/kernels/geop_npu.cc:260] [GEOP] tf session directa0d226c39e923aad, graph id: 11 no need to rebuild 2020-11-09 14:44:03.373064: I tf_adapter/kernels/geop_npu.cc:580] [GEOP] Call ge session RunGraphAsync, kernel_name:GeOp3_0 ,tf session: directa0d226c39e923aad ,graph id: 11 2020-11-09 14:44:03.373232: I tf_adapter/kernels/geop_npu.cc:593] [GEOP] End GeOp::ComputeAsync, kernel_name:GeOp3_0, ret_status:success ,tf session: directa0d226c39e923aad ,graph id: 11 [0 ms] 2020-11-09 14:44:04.234801: I tf_adapter/kernels/geop_npu.cc:76] BuildOutputTensorInfo, num_outputs:2 2020-11-09 14:44:04.234882: I tf_adapter/kernels/geop_npu.cc:103] BuildOutputTensorInfo, output index:0, total_bytes:4, shape:, tensor_ptr:281449679331968, output281449678673696 2020-11-09 14:44:04.234893: I tf_adapter/kernels/geop_npu.cc:103] BuildOutputTensorInfo, output index:1, total_bytes:4, shape:, tensor_ptr:281449680604352, output281449680936800 ``` ## 疑问 1. TF-Adapter为什么会在静态图解析完之后还会不断的执行 2. 我们怀疑是不是并不是所有算子都成功下沉到device端执行,是否会有异步执行问题 3. 我们怀疑是精度问题造成的不收敛,但我们使用的精度是默认的“allow_fp32_to_fp16”,未进行额外的设置 4. 为什么NPU的使用呈现波峰状态 [链接](https://gitee.com/ascend/tensorflow/issues/I24S3A?from=project-issue)
## Environment - **Hardware Environment(`Ascend`/`GPU`/`CPU`)**: -- ascend 910 -- Apulis - **Software Environment**: -- Python 3.7.5 -- GCC 7.5.0 ## 问题描述 1. 我们在npu上训练时出现不收敛的现象,尤其是有一个loss 往1处收敛,如图1所示;相同的代码,在GPU上训练的收敛程度如图2所示   2. 我们检测了训练时npu的占用情况,其呈现波峰式占用,表现异常,如图三所示  3. 我们在训练的过程中,TF-Adapter不断地报如下的信息: ``` 2020-11-09 14:44:03.372754: I tf_adapter/kernels/geop_npu.cc:388] [GEOP] Begin GeOp::ComputeAsync, kernel_name:GeOp3_0, num_inputs:5, num_outputs:2 2020-11-09 14:44:03.372913: I tf_adapter/kernels/geop_npu.cc:260] [GEOP] tf session directa0d226c39e923aad, graph id: 11 no need to rebuild 2020-11-09 14:44:03.373064: I tf_adapter/kernels/geop_npu.cc:580] [GEOP] Call ge session RunGraphAsync, kernel_name:GeOp3_0 ,tf session: directa0d226c39e923aad ,graph id: 11 2020-11-09 14:44:03.373232: I tf_adapter/kernels/geop_npu.cc:593] [GEOP] End GeOp::ComputeAsync, kernel_name:GeOp3_0, ret_status:success ,tf session: directa0d226c39e923aad ,graph id: 11 [0 ms] 2020-11-09 14:44:04.234801: I tf_adapter/kernels/geop_npu.cc:76] BuildOutputTensorInfo, num_outputs:2 2020-11-09 14:44:04.234882: I tf_adapter/kernels/geop_npu.cc:103] BuildOutputTensorInfo, output index:0, total_bytes:4, shape:, tensor_ptr:281449679331968, output281449678673696 2020-11-09 14:44:04.234893: I tf_adapter/kernels/geop_npu.cc:103] BuildOutputTensorInfo, output index:1, total_bytes:4, shape:, tensor_ptr:281449680604352, output281449680936800 ``` ## 疑问 1. TF-Adapter为什么会在静态图解析完之后还会不断的执行 2. 我们怀疑是不是并不是所有算子都成功下沉到device端执行,是否会有异步执行问题 3. 我们怀疑是精度问题造成的不收敛,但我们使用的精度是默认的“allow_fp32_to_fp16”,未进行额外的设置 4. 为什么NPU的使用呈现波峰状态 [链接](https://gitee.com/ascend/tensorflow/issues/I24S3A?from=project-issue)
评论 (
17
)
登录
后才可以发表评论
状态
DONE
TODO
Analysing
ACCEPTED
WIP
Feedback
TEST
DONE
REJECTED
负责人
未设置
zhengtao
zhengtao11_admin_admin
负责人
协作者
+负责人
+协作者
标签
未设置
项目
未立项任务
未立项任务
里程碑
未关联里程碑
未关联里程碑
Pull Requests
未关联
未关联
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
未关联
分支 (
-
)
标签 (
-
)
开始日期   -   截止日期
-
置顶选项
不置顶
置顶等级:高
置顶等级:中
置顶等级:低
优先级
不指定
严重
主要
次要
不重要
预计工期
(小时)
参与者(5)
1
https://gitee.com/ascend/modelzoo.git
git@gitee.com:ascend/modelzoo.git
ascend
modelzoo
modelzoo
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
评论
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册