Yeefine/DM_DW_Exercise

基于朴素贝叶斯的文本数据的分类与分析实验

Python

实验要求

文本类别数：>=10类。
训练集文档数：>=500000篇；每类平均50000篇。
测试机文档数：>=500000篇；每类平均50000篇。

实验内容

利用朴素贝叶斯算法实现对文本的数据挖掘，主要包括：

语料库的构建，主要包括利用爬虫收集Web文档等。
语料库的数据预处理，包括文档建模，如去噪，分词，建立数据字典。
自行实现朴素贝叶斯，训练文本分类器。
对测试集的文本进行分类
对测试集的分类结果利用正确率和召回率进行分析评价。

效果展示

部分原始爬取数据

对爬取数据进行分词、去除停用词

经过TF_IDF处理

50w条测试集的测试结果