Aurora4 Clean Data
- tobesegmented: 需要切割的原始语音文件,包含6000个左右的纯净语音片段 (不一定要全部用上)
- segmentedsamples: 已经切割好了的样本,我们想要得到的比较典型的例子
- 我们理想的长度是0.5s, 但是手动截取不需要那么精确,精度在 0.5s< 语音片段长度 <=0.52s。
三类总共1000 个 左右的 0.5s 的语音片段(第三类 一段语音的结尾 并且 结尾词以后有大段空白 可能不太多)。注意不要有重复的~
以上三类语音片段 分别 放在 三个不同的文件夹中保存
Audacity