TobiasLee/Chinese-Hip-pop-Generation

preprocess.py下的训练数据生成

Closed this issue · 1 comments

博主,我看了您的训练数据大部分数据是由transform.py、preprocess.py、small_dataset.py生成的,我想知道preprocess.py下的输入数据文件是如何生成,您提供的下载文件中没有这些文件。如何由原始数据转换为您提供的输入数据。

这个主要就是对数据做预处理,处理成句对形式以及 tokenize 后构建词表,可以参考 文本预处理小节 ~