2019新型冠状病毒防治手册,是pdf版,无法复制,网上一些现成的软件则需要收费才能进行ocr识别。想起之前看到过百度智能云有API是可以进行识别的,看了下确实如此,每日百度的通用文字识别目前看到有五万次免费调用额度,超过才收费。因此尝试整合了一下python代码来识别,效果良好。
代码仅供参考。
首先想到百度智能云有提供api服务可以进行ocr识别,尝试登陆查看并查看接口文档,python sdk文档等进行研究。决定采用文档中所提供的python sdk来进行编写。
百度智能云你可以通过这个地址登陆:https://console.bce.baidu.com/ai/#/ai/ocr/overview/index 登陆后找到通用文字识别的功能,我这里给的就是ocr识别的网址。用你的百度账号即可登陆,没有就自己注册一个。
如下图所示,目前每日有五万次的免费调用额度:
将得到的这三项,填入baiduocrforvirus模板.py这个文件中的对应位置。文件名你可以随便改。
接下来是截图,你可以截取你需要识别的图片(你可以用这个程序来识别你别的东西)。比如我这里截取的是防治手册中的页面文字,按照数字顺序保存成jpg文件到同一个文件夹下,用来后续遍历该文件夹。当然这里你也可以用别的方式。
在启动之前,你还必须安装好python环境,我这里是python3.8.1。同时安装好百度的三方包:
pip install baidu-aip
你还可以修改一下这一行:
data_folder = "home"
读取的目录修改为自己要批量遍历的。
接下来启动该python脚本即可。我测试了不设置延时的话会有时候获取不到数据,所以随意设置了一个1秒的延时,每隔一秒获取一次识别结果,并自动将识别结果写入文件当中。
你可以查看company.txt和home.txt这两个文件,就是我生成的示例结果啦~
快来试试吧!
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。