# pdf_解析 **Repository Path**: purify_wang/pdf-parse ## Basic Information - **Project Name**: pdf_解析 - **Description**: 解析pdf - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: dev_shangfei_mineru - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 1 - **Created**: 2023-12-13 - **Last Updated**: 2025-04-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # PDF解析项目 本项目旨在解析PDF文件内容,提取文本或相关信息,以便进一步处理和利用。 ## 功能特点 支持解析PDF文件,提取文本内容、图片、表格。 ## 使用方法 ### 环境依赖 pip: pip install -r requirements.txt conda: conda install --yes --file requirements.txt ### 运行程序 详见main_**.py中的示例代码。 ### 解析计划 1. 调研市面上其他的解析工具 api 、重点调研textin 2. pymupdf研究 3. 重点优化商飞解析方法 1. 优化解析格式为markdown / html? 2. 针对某一个章节进行正则优化 3. 调研商飞文档结构 4. 调研解析工具 5. 去页头页尾 6. 恢复文档格式 7. 解析包代码优化、流程优化