# pdf2word **Repository Path**: siyucn/pdf2word ## Basic Information - **Project Name**: pdf2word - **Description**: 可以把pdf中的文字提取到word和txt中 - **Primary Language**: Python - **License**: LGPL-3.0 - **Default Branch**: pdf2word - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-02-17 - **Last Updated**: 2025-02-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # pdf2word #### 介绍 可以把pdf中的文字提取到word和txt中 #### 软件架构 mian.py 主程序,在python环境中运行 tessdata 目录,需要下载相应的语言识别设置模块 chi_sim.traineddata , eng.traineddata #### 使用说明 1. 运行前需安装Tesseract-OCR程序,具体方法可自行搜索,也可等后续我写完整的方法,因是业余时间整理,敬请谅解。 2. 运行前需要安装相应的python库 3. C:\Program Files\Tesseract-OCR\tesseract.exe 修改成实际安装地址 4. 转换结果存放在主程序所在目录 5. 程序不难实现,有兴趣的可以打包成小程序,方便分享和发布,但请不要收费,因为网上很多收费,但功能单一的程序。简单的小功能,没必要为此买单,方便大家,方便你我他。 6. 如果后面有时间,我会自己整理个小程序出来,供大家使用。