UTAU、人力Vocaloid相关脚本与工具的存放处。不定期更新。
根据IBM Watson Speech to Text返回的json与原始音频文件,将整段音频分割为单音节发音,供UTAU等软件使用。目前仅支持中文音频。
使用例:
python process_ibm_json.py [JSON文件] [原始WAV音频] [置信度阈值(0~1)] [音节时长阈值(秒)]
与 process_ibm_json.py
使用方法类似,但此程序仅支持日语(罗马音)。
为确保效果,在使用process_ibm_json_jpn.py
推荐使用以下命令获取语音识别结果:
curl -X POST -u "apikey:你的API密钥" --header "Content-Type: audio/wav" --data-binary @文件名.wav "你的URL/v1/recognize?model=ja-JP_BroadbandModel&profanity_filter=false&redaction=false×tamps=true&word_confidence=true" --output 识别结果文件名.json
API密钥和URL可以在IBM Cloud控制台查看。
Watson Speech to Text的使用教程: https://cloud.ibm.com/docs/services/speech-to-text?topic=speech-to-text-gettingStarted#getting-started-tutorial