2.3K Star 8.1K Fork 4.3K

GVPMindSpore / mindspore

 / 详情

【MindSpore】【Ascend】【C类】【duconv】模型训练设置epcho为30时,执行后显示的是65轮的结果

DONE
Bug-Report
创建于  
2022-02-28 15:37

一、 问题描述:
模型训练设置epcho为30时,执行后显示的是65轮的结果,结果显示如下信息:
-r-------- 1 root root 133162477 Feb 27 22:25 match_kn_gene_rank_0-49_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:26 match_kn_gene_rank_0-50_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:27 match_kn_gene_rank_0-51_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:27 match_kn_gene_rank_0-52_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:28 match_kn_gene_rank_0-53_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:28 match_kn_gene_rank_0-54_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:29 match_kn_gene_rank_0-55_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:30 match_kn_gene_rank_0-56_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:30 match_kn_gene_rank_0-57_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:31 match_kn_gene_rank_0-58_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:32 match_kn_gene_rank_0-59_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:32 match_kn_gene_rank_0-60_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:33 match_kn_gene_rank_0-61_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:34 match_kn_gene_rank_0-62_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:34 match_kn_gene_rank_0-63_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:35 match_kn_gene_rank_0-64_400.ckpt
-r-------- 1 root root 133162477 Feb 27 22:35 match_kn_gene_rank_0- 65 _400.ckpt
-rw------- 1 root root 495334 Feb 27 21:55 match_kn_gene_rank_0-graph.meta

二、建议修改checkpoints生成的ckpt文件数量限制5个以内

三、环境信息:
-- CANN 版本: (CANN 5.0.3 B060)
-- python 版本:Python 3.7.5
-- 操作系统版本:Ubuntu 18.04.5

评论 (6)

樊冬冬 创建了Bug-Report

Please add labels (comp or sig), also you can visit https://gitee.com/mindspore/community/blob/master/sigs/dx/docs/labels.md to find more.
为了让代码尽快被审核,请您为Pull Request打上 组件(comp)或兴趣组(sig) 标签,打上标签的PR可以直接推送给责任人进行审核。
更多的标签可以查看https://gitee.com/mindspore/community/blob/master/sigs/dx/docs/labels.md
以组件相关代码提交为例,如果你提交的是data组件代码,你可以这样评论:
//comp/data
当然你也可以邀请data SIG组来审核代码,可以这样写:
//sig/data
另外你还可以给这个PR标记类型,例如是bugfix或者是特性需求:
//kind/bug or //kind/feature
恭喜你,你已经学会了使用命令来打标签,接下来就在下面的评论里打上标签吧!

樊冬冬 添加了sig/modelzoo(已删除)标签
樊冬冬 修改了描述
fangwenyi 任务状态TODO 修改为ACCEPTED
fangwenyi 负责人设置为liangyongxiong
liangyongxiong 里程碑设置为B-SIG-ModelZoo
liangyongxiong 负责人liangyongxiong 修改为Shawny

epcho为30时,执行后显示的是65轮的结果:按step存的ckpt,不代表epoch数量

建议修改checkpoints生成的ckpt文件数量限制5个以内:此网络需要遍历多个权重文件找到最优解达到精度要求,最优ckpt不一定在最后,故存储了较多ckpt

补充readme中关于多卡训练的部分:https://gitee.com/mindspore/models/pulls/2280

该问题已通过修改README文档进行了说明,已解决,如下所示:
在predict文件夹含有所有ckpt目录中权重文件的的评估log,每个log的文件名与ckpt文件名对应,需要遍历所有log找到最优精度,通过对应文件名确认ckpt文件,或根据自己的需求,使用所需精度的ckpt。

樊冬冬 任务状态ACCEPTED 修改为DONE
LV 移除了sig/modelzoo(已删除)标签
LV 添加了
 
kind/bug
标签
LV 添加了
 
sig/modelzoo
标签

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(4)
8108889 shawny233 1628167362 6579668 liangyongxiong1024 1584522442
Python
1
https://gitee.com/mindspore/mindspore.git
git@gitee.com:mindspore/mindspore.git
mindspore
mindspore
mindspore

搜索帮助