# pdf2word

**Repository Path**: siyucn/pdf2word

## Basic Information

- **Project Name**: pdf2word
- **Description**: 可以把pdf中的文字提取到word和txt中
- **Primary Language**: Python
- **License**: LGPL-3.0
- **Default Branch**: pdf2word
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-02-17
- **Last Updated**: 2025-02-17

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# pdf2word

#### 介绍
可以把pdf中的文字提取到word和txt中

#### 软件架构
mian.py 主程序，在python环境中运行
tessdata 目录，需要下载相应的语言识别设置模块  chi_sim.traineddata   ，  eng.traineddata



#### 使用说明

1.  运行前需安装Tesseract-OCR程序，具体方法可自行搜索，也可等后续我写完整的方法，因是业余时间整理，敬请谅解。
2.  运行前需要安装相应的python库
3.  C:\Program Files\Tesseract-OCR\tesseract.exe 修改成实际安装地址
4.  转换结果存放在主程序所在目录
5.  程序不难实现，有兴趣的可以打包成小程序，方便分享和发布，但请不要收费，因为网上很多收费，但功能单一的程序。简单的小功能，没必要为此买单，方便大家，方便你我他。
6.  如果后面有时间，我会自己整理个小程序出来，供大家使用。