NLP的数据增强Demo
这是一个数据增强的代码,思路来源于Easy Data Augmentation Techniques,然后对这个代码转了中文支持。具体原理可查看NLP中一些简单的数据增强技术。
这里使用的是hanlp分词,所以你需要安装hanlp。 本代码使用同义词词林做同义词查询,原版是使用nltk做英文的同义词查询,我尝试使用过python的同义词包synonyms,但是效果不是很好,其他同学可以尝试一下,或者推荐更好的同义词库给我,谢谢。 停用词使用的百度和哈工大的停用词表。
python augment.py --input=test_input.csv --output=test_output.csv --num_aug=20 --alpha=0.05
python translate.py
中文转英文: Hello
英文转中文: 你好