1 Star 0 Fork 2

雪山凌狐 / 百度智能云语音识别m4aTotxt(支持扩展其他音频,批量识别)

Create your Gitee Account
Explore and code with more than 6 million developers,Free private repositories !:)
Sign up
Clone or download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

项目介绍

本程序为百度智能云的语音识别标准版的封装示例demo,可直接使用。

百度官方技术文档:https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

百度智能云控制台(可以到这里申请appid、apikey、secretkey信息):https://console.bce.baidu.com/ai/#/ai/speech/overview/index

(目前百度智能云的语音识别标准版免费使用,调用次数无限制,欢迎使用哦)

官方除了标准版还有个极速版,极速版用完免费次数后需要收费。标准版速度不算特别快,不是秒回的,一分钟的文件识别大约需要2-3秒,对速度有要求的朋友情自行改为使用极速版。

本程序借助使用了开源工具ffmpeg和ffprobe,项目已附带目前官网下载的最新静态独立版本。

程序特色

  1. 默认仅支持苹果录音的m4a格式识别,单文件识别后写到单文件的txt中。
  2. 轻松支持格式扩展,预计可通过加一两句代码实现mp3,wav,amr等其他音频格式的语音识别(已经加了说明在代码中,扩展方便)
  3. 支持多文件批量识别,子目录文件识别。
  4. 全面支持中文文件名或目录。
  5. 支持展示识别结果,总体进度和总消耗时间。
  6. 支持长语音识别(无论多长都行),程序会自动拆分成60秒语音分别识别。(因为目前百度智能云限制单次识别最多60秒)
  7. 支持设定QPS(每秒调用次数)限制数,避免识别速度过快异常。(目前看免费版默认是QPS = 5)
  8. 还有其他各种特色等待你去挖掘哦~

如何使用

  1. 首先请到前文提到的百度智能云官网注册(可使用百度账号登录),认证为开发者后,创建应用,应用权限需包含“段语音识别”。获取到你对应的appid、apikey、secretkey。

  2. 下载项目到本地并解压,将baidu-yuyin-m4aTotxt-share.py这个文件重命名为baidu-yuyin-m4aTotxt.py。打开baidu-yuyin-m4aTotxt.py这个文件,在配置部分填入你申请的appid、apikey、secretkey并保存。

  3. 安装环境依赖:

    本python程序在python3.8.1版本中开发。你的包依赖可以安装到系统python中或virtualenv中。

    使用cmd运行如下代码安装:

    pip install -r requirements.txt
  4. 复制粘贴你要识别的音频文件(默认支持m4a格式,其他可轻松修改代码扩展)到audio文件夹(文件夹名可配置)内,支持多层文件夹复制进来。(含有子目录的,识别结果会保存到对应子目录你这个音频文件旁)支持批量识别,所以可以把所有的文件都复制进来。

  5. 使用cmd运行程序识别:

    python baidu-yuyin-m4aTotxt.py

    运行过程中会输出识别结果,现在在做什么和总进度提醒,中间尽量不要去操作audio文件夹,待结束后再看。

更新日志

V1.1 更新日志 20200215:

  1. 补充上一版本漏上传的audio文件夹。

V1.0 更新日志 20200215:

  1. 版本初始发布,已经多次经过测试,并优化了控制台输出内容。

Comments ( 0 )

Sign in for post a comment

About

本程序为百度智能云的语音识别标准版的封装示例demo,可直接使用。 spread retract
Python
MIT
Cancel

Gitee Metrics

Contributors

All

Activities

load more
can not load any more
Python
1
https://gitee.com/xueshanlinghu/baidu-yuyin-m4aTotxt.git
git@gitee.com:xueshanlinghu/baidu-yuyin-m4aTotxt.git
xueshanlinghu
baidu-yuyin-m4aTotxt
百度智能云语音识别m4aTotxt(支持扩展其他音频,批量识别)
master

Search