- auto generating subtitle(srt format ) or text for audio data
- cut audio data(wav format ,1 channel) to small part by speakers pause
- only support 1 channel wav file
- user need to retrieve audio data from videos
- generate subtitle/text for video data
- the recognize rate depend on many factors: the qulity of the video data etc
- please apply Baidu api key for using ,contact if you have any question
- ted80001.wav is generated from https://ia800204.us.archive.org/25/items/AomawaShields_2015U/AomawaShields_2015U.mp4
- ted80001.srt is auto generated by ted80001.wav
- change mdedian filter arithmetic
- arithmetic improvement for insert sutiable audio info
- no need to split wav file,use stream to do baidu query
- use ffmpeg for caption
- other bug fix and improvements
- 自动生成语音字幕
- 可以根据说话人的停顿,进行自动片段剪辑
- 只支持 1 个通道的 wav 文件
- 如果进行视频字幕自动生成,用户需要自己提取一个通道的wav文件
- 语音文件识别的字幕格式srt
- 也可以进行语音转化成文字
- 识别率还可以,依赖音频文件的噪声,演讲,朗读音频较好
- 底层使用的Baidu的语音识别,如果使用请自行申请,如果有问题可以联系我
- ted80001.wav 来源于视频 https://ia800204.us.archive.org/25/items/AomawaShields_2015U/AomawaShields_2015U.mp4
- ted80001.srt 由ted80001.wav 自动生成
知乎上详细的说明 https://zhuanlan.zhihu.com/p/28347508
音乐切割小音频 https://pan.baidu.com/s/1hrXxEJU
演讲切割小音频 https://pan.baidu.com/s/1jIrC0F8#list/path=%2F
- 中值滤波scipy.signal.medfilt计算速度较慢,更新计算方法
- get_wave_statistic函数添加framerate(采样率)参数,支持8000/16000,添加处理(无声音时长超过17s切为多个16.999s的无声音时长)
- calculate_other_statistic_info函数添加framerate(采样率)参数,支持8000/16000
- 修改原来循环排序生成间隔小于17s时间点数组算法(每次循环采用折半插入排序,因为插入的是排好序的数组,原来每次循环采用sort,视频时长超过1小时的话基本算不完了...)
- 去掉原来将wav切成具体的小文件步骤,直接使用流访问百度api
- 修改保存字幕格式可以直接使用ffmpeg将字幕烧制到视频中
- 修改speech_recognizai_baidu方法接受流,不再去读文件
- 添加注释
- 添加ffmpeg分离音频,烧制字幕指令
©2017 alex All Rights Reserved.