English | 简体中文
PP-Structure是一个可用于复杂文档结构分析和处理的OCR工具包,旨在帮助开发者更好的完成文档理解相关任务。
PP-Structure的主要特性如下:
图中展示了版面分析+表格识别的整体流程,图片先有版面分析划分为图像、文本、标题和表格四种区域,然后对图像、文本和标题三种区域进行OCR的检测识别,对表格进行表格识别,其中图像还会被存储下来以便使用。
![]() |
![]() |
---|
图中不同颜色的框表示不同的类别,对于XFUN数据集,有QUESTION
, ANSWER
, HEADER
3种类别
在OCR检测框的左上方也标出了对应的类别和OCR识别结果。
![]() |
![]() |
---|
图中红色框表示问题,蓝色框表示答案,问题和答案之间使用绿色线连接。在OCR检测框的左上方也标出了对应的类别和OCR识别结果。
请参考快速安装教程。
在PP-Structure中,图片会先经由Layout-Parser进行版面分析,在版面分析中,会对图片里的区域进行分类,包括文字、标题、图片、列表和表格5类。对于前4类区域,直接使用PP-OCR完成对应区域文字检测与识别。对于表格类区域,经过表格结构化处理后,表格图片转换为相同表格样式的Excel文件。
版面分析对文档数据进行区域分类,其中包括版面分析工具的Python脚本使用、提取指定类别检测框、性能指标以及自定义训练版面分析模型,详细内容可以参考文档。
表格识别将表格图片转换为excel文档,其中包含对于表格文本的检测和识别以及对于表格结构和单元格坐标的预测,详细说明参考文档。
DOC-VQA指文档视觉问答,其中包括语义实体识别 (Semantic Entity Recognition, SER) 和关系抽取 (Relation Extraction, RE) 任务。基于 SER 任务,可以完成对图像中的文本识别与分类;基于 RE 任务,可以完成对图象中的文本内容的关系提取,如判断问题对(pair),详细说明参考文档。
PP-Structure系列模型列表(更新中)
模型名称 | 模型简介 | 下载地址 |
---|---|---|
ppyolov2_r50vd_dcn_365e_publaynet | PubLayNet 数据集训练的版面分析模型,可以划分文字、标题、表格、图片以及列表5类区域 | PubLayNet |
模型名称 | 模型简介 | 模型大小 | 下载地址 |
---|---|---|---|
ch_ppocr_mobile_slim_v2.0_det | slim裁剪版超轻量模型,支持中英文、多语种文本检测 | 2.6M | 推理模型 / 训练模型 |
ch_ppocr_mobile_slim_v2.0_rec | slim裁剪量化版超轻量模型,支持中英文、数字识别 | 6M | 推理模型 / 训练模型 |
en_ppocr_mobile_v2.0_table_structure | PubLayNet数据集训练的英文表格场景的表格结构预测 | 18.6M | 推理模型 / 训练模型 |
模型名称 | 模型简介 | 模型大小 | 下载地址 |
---|---|---|---|
PP-Layout_v1.0_ser_pretrained | 基于LayoutXLM在xfun中文数据集上训练的SER模型 | 1.4G | 推理模型 coming soon / 训练模型 |
PP-Layout_v1.0_re_pretrained | 基于LayoutXLM在xfun中文数据集上训练的RE模型 | 1.4G | 推理模型 coming soon / 训练模型 |
更多模型下载,可以参考 PPOCR model_list and PPStructure model_list
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。