# PDF Structure Recognition **Repository Path**: sylvialiu/pdf-structure-recognition ## Basic Information - **Project Name**: PDF Structure Recognition - **Description**: PDF文档结构识别 :本项目意图从PDF中识别标题、作者、图表、正文等内容进行分割提取,输入PDF文献,输出得到文本识别分类后的HTML格式文档(标题、作者、摘要、正文标题、正文、参考文献),图片与表格文件(图表注一起打包)。 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 4 - **Created**: 2020-09-05 - **Last Updated**: 2024-09-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### PDFStructureRecognition ### 项目介绍 目前,在互联网上发布的科技论文和电子书籍大部分以PDF格式提交,可能没有latex等原始文档的数据结构信息,使得PDF无法直接被机器阅读,给学术文献的研究工作带来诸多不便。 本项目的目标从PDF中识别标题、作者、图表、正文等内容进行分割提取,输入PDF文献,输出得到文本识别分类后的HTML格式文档(标题、作者、摘要、正文标题、正文、参考文献),图片与表格文件(图表注一起打包)。 ### 项目分解 - 预处理步骤 输入PDF文件输出OPENCV的cvmat对象,判别版面类型,先分栏分块; ![输入图片说明](https://images.gitee.com/uploads/images/2020/0905/224144_aa135b93_8024295.png "图1.png") - 表格提取 对预处理得到的每个区域进行OpenCV三线表识别(判别是否有水平线以及连续单行数据间是否有间距,确定出表格区域),以及纵向连通性区域识别出其他表格,利用camelot工具把该区域解析成表格文件 - 图片提取 对预处理分割出的区域进行OpenCV图像识别,利用膨胀腐蚀原理根据文本行有空白间距而图片纵向连通的特征分割出图片,若有metadata解析获取图片位置与opencv得到的图片在二进制图像上做像素或运算得到更精确的图片区域 - 文本分类识别 解析数据结构,获取文本流,得到作者、标题、关键字、页眉页脚、注释等信息,可通过字体大小来判别段落标题和段落。若无数据流,后续需要使用tesseract ocr工具从图像上识别文字,从图像特征和正则的方法进行文本分类。