audio to text
git clone https://github.com/bup-fogoo/VTOT.git
对音频和视频文件进行智能语音识别成文字。 使用时请注意,文件名只允许字母和数字,格式只允许mp3、mp4、wav文件上传, 单个文件最大限制1G、时长120分钟。上传文件只保留一小时。
配置路径 /config/application.yaml
需要注意的是这里的vps必须是公网,如需更改对外开放18888端口,docker-compose.yaml里的对外映射端口也要一并更改。
aliCloudSdk配置获取需要自行去 阿里云智能语音识别服务 获取以下三个appKey、accessKeyID、accessKeySecret。
vps: http://192.168.1.1:18888/
aliCloudSdk:
appKey: xxx
accessKeyID: xxx
accessKeySecret: xxx
ps:此项目需要已经安装好docker
docker-compose build
docker-compose up -d