zyzx: A Jupyter Notebook repository from line2222

如何测试自己写的规则

1.超哥在/data/Text/sms路径下放了很多的短信语料，使用DataPreDeal.py来获取TotalData.txt(合并后的数据),运行时请新建data目录,注意：整合时因为语料本身就带了一些重复的句子，所以整合生成的TotalData.txt文件也会带有重复句子，在之后的数据筛选时会去除
目前2204:/data/Text文件夹下有一份已经生成好了的TotalData.txt，也可以直接使用该数据，第一步可跳过


2.使用DataWash来获取一些与自己业务场景相关的句子,这一步操作过后，生成的filtered_sms_sample文件已经去重了,这一步是非常有必要的，因为数据太大会导致下一步时间非常久

3.使用gen_train_test_total来自动标注训练语料，源文件已经按照编写者进行分块，每个人在自己的区域进行修改即可,文件会产生total_train.txt和total_test.txt两个文件，分别用于训练与测试模型，代码文件开头 有标志变量TEST，为True代表所有句子都输出到total_train.txt，为False表示十分之一的数据被分到total_test.txt

4.使用shuffleData从第二步获取的文件中抽出一些测试样例

5.使用第三步中gen_train_test_total对第四步产生的文件进行运行，会生成train_total.txt与test_total.txt两个标注文件

6.使用DataAssemble对train_total.txt文件进行运行，结果输出为result_out，根据结果修改提升场景效果

----------------------------------模型分割线----------------------------------
7.使用第五步的输出文件作为模型的输入文件，训练模型，训练出来的模型效果与第六步测试的效果呈正相关


8.使用WriteToExcel将result_out转化成标准xlsx文件
line2222/zyzx