/AuroraCleanData

Aurora4 Clean Data

Primary LanguagePython

AuroraCleanData

Aurora4 Clean Data

1. 文件夹描述:

  • tobesegmented: 需要切割的原始语音文件,包含6000个左右的纯净语音片段 (不一定要全部用上)
  • segmentedsamples: 已经切割好了的样本,我们想要得到的比较典型的例子

2. 具体需求:

语音片段长度:

  • 我们理想的长度是0.5s, 但是手动截取不需要那么精确,精度在 0.5s< 语音片段长度 <=0.52s。

具体需要的语音片段类型:

  • 一段语音的开头 并且 人发声前有大段空白: example: segementedsamples/1.wav

  • 一段语音的结尾 并且 结尾词以后有大段空白: example: segmentedsamples/13.wav, segmentedsamples/19.wav

  • 一段语音结尾 +大段空白+ 一段语音开头 example: segmentedsmaples/2.wav

需求数量

三类总共1000 个 左右的 0.5s 的语音片段(第三类 一段语音的结尾 并且 结尾词以后有大段空白 可能不太多)。注意不要有重复的~

以上三类语音片段 分别 放在 三个不同的文件夹中保存

3. 推荐使用语音处理软件:

Audacity