/text_classify

This is a project of Chinese text classification for NLP.

Primary LanguagePython

本次实验比较和测试了三类文档表示方法:基于tf-idf表示的潜在语义分析(Latent Semantic Index, LSI)和潜在狄立克雷分配(Latent Dirichlet Allocation,LDA)和基于神经网络的doc2vec模型。

三个实验的程序分别在tf-idf_LSI、tf-idf_LDA和doc2vec文件夹中,每个文件夹中都有一个main.py, 直接运行它即可:python main.py, 详情见对应文件夹中的README.txt文件。部分程序运行可能耗时较长,请耐心等待。

data文件夹中存放着程序使用的原始语料数据和公共数据。

anthor: jcai
mail: jcai@mail.com