# audiolearning **Repository Path**: tuxg/audiolearning ## Basic Information - **Project Name**: audiolearning - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-08-02 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # audio learning # ## feature ## * auto generating subtitle(srt format ) or text for audio data * cut audio data(wav format ,1 channel) to small part by speakers pause ## notice ## * only support 1 channel wav file * user need to retrieve audio data from videos * generate subtitle/text for video data * the recognize rate depend on many factors: the qulity of the video data etc * please apply Baidu api key for using ,contact if you have any question * ted80001.wav is generated from https://ia800204.us.archive.org/25/items/AomawaShields_2015U/AomawaShields_2015U.mp4 * ted80001.srt is auto generated by ted80001.wav ## FYI ## ## contact ## wj3235@126.com ## 更新日志 ## ### Ver 0.0.1 ### * change mdedian filter arithmetic * arithmetic improvement for insert sutiable audio info * no need to split wav file,use stream to do baidu query * use ffmpeg for caption * other bug fix and improvements # 语音学习 # ## 功能 ## * 自动生成语音字幕 * 可以根据说话人的停顿,进行自动片段剪辑 ## 注意事项 ## * 只支持 1 个通道的 wav 文件 * 如果进行视频字幕自动生成,用户需要自己提取一个通道的wav文件 * 语音文件识别的字幕格式srt * 也可以进行语音转化成文字 * 识别率还可以,依赖音频文件的噪声,演讲,朗读音频较好 * 底层使用的Baidu的语音识别,如果使用请自行申请,如果有问题可以联系我 * ted80001.wav 来源于视频 https://ia800204.us.archive.org/25/items/AomawaShields_2015U/AomawaShields_2015U.mp4 * ted80001.srt 由ted80001.wav 自动生成 ## 仅供参考## 知乎上详细的说明 https://zhuanlan.zhihu.com/p/28347508 音乐切割小音频 https://pan.baidu.com/s/1hrXxEJU 演讲切割小音频 https://pan.baidu.com/s/1jIrC0F8#list/path=%2F ## 联系方式 ## wj3235@126.com ## 更新日志 ## ### Ver 0.0.1 ### * 中值滤波scipy.signal.medfilt计算速度较慢,更新计算方法 * get_wave_statistic函数添加framerate(采样率)参数,支持8000/16000,添加处理(无声音时长超过17s切为多个16.999s的无声音时长) * calculate_other_statistic_info函数添加framerate(采样率)参数,支持8000/16000 * 修改原来循环排序生成间隔小于17s时间点数组算法(每次循环采用折半插入排序,因为插入的是排好序的数组,原来每次循环采用sort,视频时长超过1小时的话基本算不完了...) * 去掉原来将wav切成具体的小文件步骤,直接使用流访问百度api * 修改保存字幕格式可以直接使用ffmpeg将字幕烧制到视频中 * 修改speech_recognizai_baidu方法接受流,不再去读文件 * 添加注释 * 添加ffmpeg分离音频,烧制字幕指令 ©2017 alex All Rights Reserved.