代码拉取完成,页面将自动刷新
本模型实现了对Origaminet模型的几个改进:
原论文: Mohamed Yousef, Tom E. Bishop, "OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page Text Recognition by learning to unfold, " arXiv:2006.07491
示例:在MindSpore上使用自制初高中作文数据集基于预训练模型训练出模型进行作文整篇识别
下载解压后将/data_set文件夹放在项目根目录下,将alph.gc放在项目的parameters/文件夹中
执行训练或评估脚本:
#GPU单机训练示例:
bash run_standalone_train.sh GPU
#GPU评估示例
bash run_eval.sh GPU
.
└──eassy-recognition
├── README.md # 文档说明
├── README_CN.md # 中文文档说明
├── script
├── run_eval.sh # 启动评估
└── run_standalone_train.sh # 启动单机训练(1卡)
├── src
├── cnv_model.py # 模型结构定义文件
├── ds_load.py # 数据预处理及自定义数据集
├── util.py # 字符下标转换以及order-align序列实现
└── cnv_for_train.py # 带梯度、CTC损失的自定义单步训练模型
├── model_ckpt
└── origaminet.ckpt # 预训练模型
├── parameters
├── hwdb.gin # 训练参数配置
├── infer.gin # 评估参数配置
├── train.gc # 训练数据文件列表
└── test.gc # 评估数据文件列表
├── eval.py # 评估网络
└── train.py # 训练网络
在parameters/hwdb.gin中配置训练参数
train.train_data_list = 'parameters/train.gc' #训练数据集文件名列表
train.train_data_path = 'data_set/train' #训练数据集路径
train.train_batch_size = 1 #输入张量批次大小。
train.lr = 0.01 #初始学习率
train.save_model_path = './saved_models_finetune/' #检查点保存位置
train.model_prefix = "model_finetune_" #检查点名称前缀
train.continue_model = 'model_ckpt/origaminet.ckpt' #预训练模型位置
train.valInterval = 100 #边训练边推理的间隔epoch数
parameters/hwdb.gin
中设置选项,包括学习率和网络超参数。run_standalone_train.sh
进行非分布式训练。bash run_standalone_train.sh [TRAIN_DATA_DIR] [DEVICE_TARGET]
run_eval.sh
进行评估。bash run_eval.sh [TEST_DATA_DIR] [DEVICE_TARGET]
参数 | GPU |
---|---|
模型版本 | v1.0 |
资源 | GPU(GeForce RTX 3090),CPU 2.9GHz 64核,内存: 256G |
上传日期 | 2022-01-07 |
MindSpore版本 | 1.5.0rc1 |
数据集 | 自制数据集 |
训练参数 | epoch=100, steps per epoch=100, batch_size = 1 |
优化器 | Adam |
损失函数 | CTCLoss |
输出 | 概率 |
损失 | 11.842 |
速度 | 5450毫秒/步(卡) |
总时长 | 15小时(1pcs) |
参数(M) | 12.6 |
微调检查点 | 10.59M (.ckpt文件) |
脚本 | 链接 |
参数 | essay-recognition |
---|---|
模型版本 | V1.0 |
资源 | GPU;系统 Ubuntu 18.04.6 LTS |
上传日期 | 2022-01-07 |
MindSpore版本 | 1.5.0rc1 |
数据集 | 自制数据集 |
batch_size | 1 |
输出 | nCER |
准确率 | 0.146937 |
推理模型 | 10.59M (.ckpt文件) |
请浏览官网主页。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。