代码拉取完成,页面将自动刷新
近期有朋友要我帮忙将 pdf 格式文档数据提取成 docx 格式,平时我自己要么就通过编辑器转换了,要么就通过命令行转换,但这种方式对于一些朋友来说不是很友好,故此有此项目。
目前只支持 docx 和 pdf 互转,后续有时间了,会考虑支持多种常用文档格式互转,如果你对这感兴趣,欢迎提 PR !
命令行提示
批量 docx 转 pdf
批量 pdf 转 docx
# GitHub
git clone https://github.com/pudongping/document-converter.git
# gitee
git clone https://gitee.com/pudongping/document-converter.git
cd document-converter && sudo pip install -r requirements.txt
举个例子来说,如果此时我想将 n
个 .docx
格式的文档转换成 .pdf
格式的文档,那么我需要这么操作:
n
个 .docx
文档复制到此项目的 data/input/docxs
目录(如果想转 .pdf
格式的文档,则需要将文档复制到 data/input/pdfs
目录)python3 main.py --docx-to-pdf
命令,且等待命令执行结束(你可以去泡杯咖啡,之后静静等待,一般来说会很快,因为支持多线程)data/output/pdfs
目录查看已经转换好的文档。至此,完毕!命令 | 说明 |
---|---|
python3 main.py --version | 显示当前应用的版本号 |
python3 main.py --help 或者 python3 main.py -h | 显示帮助文档 |
python3 main.py --docx-to-pdf | 执行 docx 文档转成 pdf 格式的文档 |
python3 main.py --pdf-to-docx | 执行 pdf 文档转成 docx 格式的文档 |
├── LICENSE
├── Pipfile
├── README.md 项目介绍文档
├── app 代码目录
│ ├── __init__.py
│ ├── config 配置文件目录
│ │ ├── __init__.py
│ │ └── app.py 配置相关
│ ├── converter 转换相关代码目录
│ │ ├── __init__.py
│ │ ├── converter_docx.py *文档转 docx 格式相关代码
│ │ └── converter_pdf.py *文档转 pdf 格式相关代码
│ └── helper.py 助手函数
├── data 数据相关
│ ├── input 需要转换的文档目录
│ │ ├── docxs 如果需要将 docx 文档转换成其他格式,则默认需要将文档放入此目录下
│ │ │ ├── 文档1.docx
│ │ │ └── 文档2.docx
│ │ └── pdfs 如果需要将 pdf 文档转换成其他格式,则默认需要将文档放入此目录下
│ │ ├── alex1.pdf
│ │ └── sample.pdf
│ └── output 文档转换后存放的文档目录
│ ├── docxs 所有经过转换后的 docx 文档默认会放到此目录下
│ │ ├── alex1.pdf.docx
│ │ └── sample.pdf.docx
│ └── pdfs 所有经过转换后的 pdf 文档默认会放到此目录下
│ ├── 文档1.docx.pdf
│ └── 文档2.docx.pdf
├── main.py 项目入口文件
├── requirements.txt 项目依赖关系清单
└── runtime 项目运行相关
└── logs 日志目录
└── 202104
└── converter-2021-04-24.log 以天为单位记录的操作日志
源代码基于 MIT 协议发布。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。