当前仓库属于关闭状态，部分功能使用受限，详情请查阅仓库状态说明

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

克隆/下载

README.md 2.45 KB

# 百度ocr识别for2019冠状病毒防治手册

#### 介绍
2019新型冠状病毒防治手册，是pdf版，无法复制，网上一些现成的软件则需要收费才能进行ocr识别。想起之前看到过百度智能云有API是可以进行识别的，看了下确实如此，每日百度的通用文字识别目前看到有五万次免费调用额度，超过才收费。因此尝试整合了一下python代码来识别，效果良好。

代码仅供参考。

#### 编写思路和过程

1. 首先想到百度智能云有提供api服务可以进行ocr识别，尝试登陆查看并查看接口文档，python sdk文档等进行研究。决定采用文档中所提供的python sdk来进行编写。

2. 百度智能云你可以通过这个地址登陆：[https://console.bce.baidu.com/ai/#/ai/ocr/overview/index](https://console.bce.baidu.com/ai/#/ai/ocr/overview/index) 登陆后找到通用文字识别的功能，我这里给的就是ocr识别的网址。用你的百度账号即可登陆，没有就自己注册一个。

3. 如下图所示，目前每日有五万次的免费调用额度：

![](readme_pic/1.jpg)

4. 然后可以在上图中点击“创建应用”按钮，创建应用，输入相关应用计划的信息后，可以进入到该应用的界面，获取到你应用的APP_ID，API_KEY，SECRET_KEY。

![](readme_pic/2.jpg)

5. 将得到的这三项，填入baiduocrforvirus模板.py这个文件中的对应位置。文件名你可以随便改。

6. 接下来是截图，你可以截取你需要识别的图片（你可以用这个程序来识别你别的东西）。比如我这里截取的是防治手册中的页面文字，按照数字顺序保存成jpg文件到同一个文件夹下，用来后续遍历该文件夹。当然这里你也可以用别的方式。

7. 在启动之前，你还必须安装好python环境，我这里是python3.8.1。同时安装好百度的三方包：

```python
   pip install baidu-aip
   ```

8. 你还可以修改一下这一行：

```py
   data_folder = "home"
   ```

读取的目录修改为自己要批量遍历的。

9. 接下来启动该python脚本即可。我测试了不设置延时的话会有时候获取不到数据，所以随意设置了一个1秒的延时，每隔一秒获取一次识别结果，并自动将识别结果写入文件当中。

10. 你可以查看company.txt和home.txt这两个文件，就是我生成的示例结果啦~

快来试试吧！

一键复制原始数据按行查看历史

提交于 2020-02-01 12:49 . update README.md.

百度ocr识别for2019冠状病毒防治手册

介绍

2019新型冠状病毒防治手册，是pdf版，无法复制，网上一些现成的软件则需要收费才能进行ocr识别。想起之前看到过百度智能云有API是可以进行识别的，看了下确实如此，每日百度的通用文字识别目前看到有五万次免费调用额度，超过才收费。因此尝试整合了一下python代码来识别，效果良好。

代码仅供参考。

编写思路和过程

首先想到百度智能云有提供api服务可以进行ocr识别，尝试登陆查看并查看接口文档，python sdk文档等进行研究。决定采用文档中所提供的python sdk来进行编写。
百度智能云你可以通过这个地址登陆：https://console.bce.baidu.com/ai/#/ai/ocr/overview/index 登陆后找到通用文字识别的功能，我这里给的就是ocr识别的网址。用你的百度账号即可登陆，没有就自己注册一个。
如下图所示，目前每日有五万次的免费调用额度：

然后可以在上图中点击“创建应用”按钮，创建应用，输入相关应用计划的信息后，可以进入到该应用的界面，获取到你应用的APP_ID，API_KEY，SECRET_KEY。

将得到的这三项，填入baiduocrforvirus模板.py这个文件中的对应位置。文件名你可以随便改。
接下来是截图，你可以截取你需要识别的图片（你可以用这个程序来识别你别的东西）。比如我这里截取的是防治手册中的页面文字，按照数字顺序保存成jpg文件到同一个文件夹下，用来后续遍历该文件夹。当然这里你也可以用别的方式。
在启动之前，你还必须安装好python环境，我这里是python3.8.1。同时安装好百度的三方包：
```
pip install baidu-aip
```
你还可以修改一下这一行：
```
data_folder = "home"
```
读取的目录修改为自己要批量遍历的。
接下来启动该python脚本即可。我测试了不设置延时的话会有时候获取不到数据，所以随意设置了一个1秒的延时，每隔一秒获取一次识别结果，并自动将识别结果写入文件当中。
你可以查看company.txt和home.txt这两个文件，就是我生成的示例结果啦~

快来试试吧！

Python

1

https://gitee.com/xueshanlinghu/baidu_ocr_for_virus.git

git@gitee.com:xueshanlinghu/baidu_ocr_for_virus.git

xueshanlinghu

baidu_ocr_for_virus

百度ocr识别for2019冠状病毒防治手册

master