这是我参加AI100竞赛:http://competition.ai100.com.cn/html/game_det.html?id=24&tab=1 的代码,主要用于文本分类,其中涉及CHI选择特征词,TFIDF计算权重,朴素贝叶斯、决策树、SVM、XGBoost等算法, 实现传统的文本分类并取得了不错的效果。
此外,还是用cnn卷积神经网络实现了中文的文本分类,效果要优于上述算法。
最后,还可以参考第一名的卷积神经网络模型:https://github.com/liu-nlper/DocumentClassification。
可以参考我的博客:http://blog.csdn.net/liuchonge/article/details/72614524