/zyzx

Primary LanguageJupyter Notebook

如何测试自己写的规则

1.超哥在/data/Text/sms路径下放了很多的短信语料,使用DataPreDeal.py来获取TotalData.txt(合并后的数据),运行时请新建data目录,注意:整合时因为语料本身就带了一些重复的句子,所以整合生成的TotalData.txt文件也会带有重复句子,在之后的数据筛选时会去除
目前2204:/data/Text文件夹下有一份已经生成好了的TotalData.txt,也可以直接使用该数据,第一步可跳过


2.使用DataWash来获取一些与自己业务场景相关的句子,这一步操作过后,生成的filtered_sms_sample文件已经去重了,这一步是非常有必要的,因为数据太大会导致下一步时间非常久

3.使用gen_train_test_total来自动标注训练语料,源文件已经按照编写者进行分块,每个人在自己的区域进行修改即可,文件会产生total_train.txt和total_test.txt两个文件,分别用于训练与测试模型,代码文件开头 有标志变量TEST,为True代表所有句子都输出到total_train.txt,为False表示十分之一的数据被分到total_test.txt

4.使用shuffleData从第二步获取的文件中抽出一些测试样例

5.使用第三步中gen_train_test_total对第四步产生的文件进行运行,会生成train_total.txt与test_total.txt两个标注文件

6.使用DataAssemble对train_total.txt文件进行运行,结果输出为result_out,根据结果修改提升场景效果

----------------------------------模型分割线----------------------------------
7.使用第五步的输出文件作为模型的输入文件,训练模型,训练出来的模型效果与第六步测试的效果呈正相关


8.使用WriteToExcel将result_out转化成标准xlsx文件