wolkerzheng/nlp_textclasification

Python

nlp_textclasification

流程

1.分词 2.提特征 3.加权表示 4.训练模型 5.预测模型直接调用了sklearn中的模型,没有调参

卡方检验选择特征:

Bayesian:

P R F1

0.85 0.84 0.85

KNN(k=10):

0.66 0.61 0.56

KNN(k=15)

0.67 0.58 0.52

KNN(k=20):

0.66 0.55 0.49

KNN(k=25):

0.66 0.54 0.46

KNN(k=30):

0.64 0.52 0.44

LR(C = 1e6,1e5,1e4,1e3)

0.82 0.83 0.82

SVM:

0.81 0.84 0.82

信息增益:

10000维特征:0.836742016505

LR:

0.82 0.83 0.83

bayesian

0.85 0.84 0.84

knn 15:

0.66 0.56 0.49

SVM:

0.81 0.84 0.82

0.81 0.84 0.81

多层感知机：0.793410507569