449 Star 3.5K Fork 854

PaddlePaddle / PaddleOCR

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
layout_datasets.md 2.74 KB
一键复制 编辑 原始数据 按行查看 历史
littletomatodonkey 提交于 2022-06-08 07:52 . fix link

版面分析数据集

这里整理了常用版面分析数据集,持续更新中,欢迎各位小伙伴贡献数据集~

版面分析数据集多为目标检测数据集,除了开源数据,用户还可使用合成工具自行合成,如labelme等。

1、publaynet数据集

  • 数据来源https://github.com/ibm-aur-nlp/PubLayNet
  • 数据简介:publaynet数据集的训练集合中包含35万张图像,验证集合中包含1.1万张图像。总共包含5个类别,分别是: text, title, list, table, figure。部分图像以及标注框可视化如下所示。

2、CDLA数据集

  • 数据来源https://github.com/buptlihang/CDLA
  • 数据简介:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像。总共包含10个类别,分别是: Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation。部分图像以及标注框可视化如下所示。

3、TableBank数据集

  • 数据来源https://doc-analysis.github.io/tablebank-page/index.html
  • 数据简介:TableBank数据集包含Latex(训练集187199张,验证集7265张,测试集5719张)与Word(训练集73383张,验证集2735张,测试集2281张)两种类别的文档。仅包含Table 1个类别。部分图像以及标注框可视化如下所示。
Python
1
https://gitee.com/paddlepaddle/PaddleOCR.git
git@gitee.com:paddlepaddle/PaddleOCR.git
paddlepaddle
PaddleOCR
PaddleOCR
release/2.6

搜索帮助