TextTree

文本分类树：自动化文本分类规则生成

基本**

基于统计的方法，查找在某一类文本中出现次数明显大于其他类文本的组合特征。在这个库中，组合特征主要以tree的形式程序，由此取名TextTree。

Tree 至少包含 label 和 root 信息，Tree 所覆盖的样本，必然包含 root 特征。 left_has, right_has, left_without, right_without 是四个可选的叶子节点，叶子节点用于提高 Tree 针对 label 的分类准确率，每个节点都是 list 类型的数据，可以为空。

可调参数：

max_feature_labels - 单一特征的最大覆盖类别数
min_feature_distinct - 单一特征针对某一类别的最小类别辨识度

假设数据集 D = [{text_1, label_1}, {text_2, label_2}, ... , {text_m, label_n}] ，其中label_set的大小为 n，text_set 的大小为 m，其中 label_1 表示第一类文本，查找过程如下：

遍历 text_set，抽取全部语料的 n-gram 特征，逐一统计特征在各类别中出现情况，如覆盖样本数、覆盖类别数、类别辨识度

zengbin93/TextTree

TextTree

基本**