# 文件文本识别 **Repository Path**: loveq2015/cnocr ## Basic Information - **Project Name**: 文件文本识别 - **Description**: 支持图片、doc、docx、pdf、text等,部分采用ocr - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-06-15 - **Last Updated**: 2023-06-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 请选择需要的包进行安装 #### 1. 安装cnocr ```shell pip install cnocr pip install cnstd ``` #### 2. 安装数据支持 ```shell pip install peewee pip install redis ``` #### 3. 安装文件处理相关的包 ```shell pip install aiofiles yum install ImageMagick-devel pip install tika wand pytesseract pip install fitz pip install PyMuPDF pip install python-docx ``` #### 4. 安装Libreoffice linux下doc文件无法直接识别,需要将doc转成docx,请阅读:https://www.jianshu.com/p/d73992111ac9 #### 5. 安装下载进度条 多进程下载时使用进度条显示 ```shell pip install clint ``` #### 6. 安装.env支持 ```shell pip install python-dotenv ``` #### 7. 安装web服务 ```shell pip install tornado ``` #### 8. 启用服务 ```shell python server.py ```