JiachuanDENG/AuroraCleanData

Aurora4 Clean Data

Python

AuroraCleanData

Aurora4 Clean Data

1. 文件夹描述：

tobesegmented: 需要切割的原始语音文件，包含6000个左右的纯净语音片段 (不一定要全部用上)
segmentedsamples: 已经切割好了的样本，我们想要得到的比较典型的例子

2. 具体需求：

语音片段长度：

我们理想的长度是0.5s, 但是手动截取不需要那么精确，精度在 0.5s< 语音片段长度 <=0.52s。

具体需要的语音片段类型：

一段语音的开头并且人发声前有大段空白: example: segementedsamples/1.wav
一段语音的结尾并且结尾词以后有大段空白： example: segmentedsamples/13.wav, segmentedsamples/19.wav
一段语音结尾 +大段空白+ 一段语音开头 example: segmentedsmaples/2.wav

需求数量

三类总共1000 个左右的 0.5s 的语音片段（第三类 一段语音的结尾并且结尾词以后有大段空白 可能不太多）。注意不要有重复的~

以上三类语音片段分别放在三个不同的文件夹中保存

3. 推荐使用语音处理软件：

Audacity