chapzq77/scik-learn-learn-Chinese-text-classider

使用scik-learn 实现k-means，KNN,SVM,贝叶斯，topic_extraction等算法，同时评估分类的准确率，召回率和F值。语料库是中文文本

Python

scik-learn 中文文本分类算法的实现

复旦大学的数据集，总共有9804篇文本，分为20个类别

语料库的文件目录：
corpus目录
      类别A
        ----文件1.txt
        ----文件2.txt
      类别B
        ----文件3.txt
        ----文件4.txt
#########################

使用from sklearn.datasets.base import Bunch 永持久化保存语料库的content,label,filename…… 等信息
分别实现k-means，KNN,SVM,贝叶斯，topic_extraction等,同时评估分类的准确率，召回率和F值。