新浪新闻文本分类

语料库构建

本项目的语料来源新浪新闻网，通过 spider.py 爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10w篇。

本项目的数据预处理包括：分词处理，去噪，向量化，由 stopwords.py 模块、text2term.py 模块、vectorizer.py 模块实现。

filter_pattern = re.compile(ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿')

本项目使用朴素贝叶斯作为本项目文本分类的baseline，由 baseline.py 模块实现。

平滑处理
处理零概率
最终分类结果：最高召回率:0.95 | 最低召回率:0.46 | 平均召回率:0.79 最高精确度:0.96 | 最低精确度:0.55 | 平均精确度:0.78 最高F1测度:0.93 | 最低F1测度:0.50 | 平均F1测度:0.79

本项目使用SVM作为最终的文本分类器，由 svm.py 模块实现其中SVM的核函数选用线性核，特征矩阵投入训练前经过词频加权.

借助TfidfTransformer使用TF-IDF对词频进行加权
选用线性核LinearSVC
结合5折交叉验证和网格搜索GridSearchCV完成调参
最终分类结果：最高召回率:0.99 | 最低召回率:0.77 | 平均召回率:0.90 最高精确度:0.98 | 最低精确度:0.77 | 平均精确度:0.90 最高F1测度:0.99 | 最低F1测度:0.77 | 平均F1测度:0.90

比较SVM分类器和贝叶斯分类器的分类性能，通过可视化的方式比较两者的预测结果，由 viewer.py 模块实现。