当前仓库属于关闭状态,部分功能使用受限,详情请查阅 仓库状态说明
1 Star 1 Fork 0

雪山凌狐 / 百度ocr识别for2019冠状病毒防治手册
关闭

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.md 2.45 KB
一键复制 编辑 原始数据 按行查看 历史
雪山凌狐 提交于 2020-02-01 12:49 . update README.md.

百度ocr识别for2019冠状病毒防治手册

介绍

2019新型冠状病毒防治手册,是pdf版,无法复制,网上一些现成的软件则需要收费才能进行ocr识别。想起之前看到过百度智能云有API是可以进行识别的,看了下确实如此,每日百度的通用文字识别目前看到有五万次免费调用额度,超过才收费。因此尝试整合了一下python代码来识别,效果良好。

代码仅供参考。

编写思路和过程

  1. 首先想到百度智能云有提供api服务可以进行ocr识别,尝试登陆查看并查看接口文档,python sdk文档等进行研究。决定采用文档中所提供的python sdk来进行编写。

  2. 百度智能云你可以通过这个地址登陆:https://console.bce.baidu.com/ai/#/ai/ocr/overview/index 登陆后找到通用文字识别的功能,我这里给的就是ocr识别的网址。用你的百度账号即可登陆,没有就自己注册一个。

  3. 如下图所示,目前每日有五万次的免费调用额度:

  1. 然后可以在上图中点击“创建应用”按钮,创建应用,输入相关应用计划的信息后,可以进入到该应用的界面,获取到你应用的APP_ID,API_KEY,SECRET_KEY。

  1. 将得到的这三项,填入baiduocrforvirus模板.py这个文件中的对应位置。文件名你可以随便改。

  2. 接下来是截图,你可以截取你需要识别的图片(你可以用这个程序来识别你别的东西)。比如我这里截取的是防治手册中的页面文字,按照数字顺序保存成jpg文件到同一个文件夹下,用来后续遍历该文件夹。当然这里你也可以用别的方式。

  3. 在启动之前,你还必须安装好python环境,我这里是python3.8.1。同时安装好百度的三方包:

    pip install baidu-aip
  4. 你还可以修改一下这一行:

    data_folder = "home"

    读取的目录修改为自己要批量遍历的。

  5. 接下来启动该python脚本即可。我测试了不设置延时的话会有时候获取不到数据,所以随意设置了一个1秒的延时,每隔一秒获取一次识别结果,并自动将识别结果写入文件当中。

  6. 你可以查看company.txt和home.txt这两个文件,就是我生成的示例结果啦~

快来试试吧!

Python
1
https://gitee.com/xueshanlinghu/baidu_ocr_for_virus.git
git@gitee.com:xueshanlinghu/baidu_ocr_for_virus.git
xueshanlinghu
baidu_ocr_for_virus
百度ocr识别for2019冠状病毒防治手册
master

搜索帮助