基于多分类器集成的两步情绪分类策略
##简介 主要针对微博本文进行情绪分类,实现论文面向微博文本的情绪分析方法研究中的基于多分类器集成的两步情绪分类策略,python编程实现。
##方法
针对微博文本进行情绪分类,首先使用支持向量机(SVM)和梯度提升决策树(GBDT)的集成算法进行有无情绪判别,接着对有情绪的微博使用基于多分类器决策的方法得出最终分类结果。
使用卡方统计选取部分特征,将情绪词个数以及表情符个数也作为特征。分别用GBDT和SVM 对微博进行有无情绪判别,结合它们的预测结果进行决策。
对于判定为有情绪的微博分别利用SVM、Naïve Bayes、mlknn+进行投票决策。mlknn+是结合上下文和篇章特征的多标签情绪分类方法的改进,在判定完微博中每一条句子的情绪后,利用微博中的每一条句子中的情绪分类结果进行投票,决策出微博整体的情绪类别。
投票方案如下:
1 所有句子的情绪中,出现次数最多的情绪类别作为微博整体情绪类别。
2 若存在出现次数相同情绪类别,则以最后出现句子的情绪类别作为微博整体的情绪类别。
多分类器投票策略步骤如下:
1 若三种分类器中,有两种或以上出现某种情绪类别,则以该情绪作为最终的微博情绪类别。
2 若三种分类器分类结果两两不同,则遵循mlknn+>SVM> Naïve Bayes的顺序进行选择作为最终的分类结果。
##文件说明
.
├── Y_N
│ ├── corpus
│ ├── dic
│ ├── temporary
│ ├── GBDT.py
│ ├── GBDT_SVM.py
│ ├── performance.py
│ ├── pytc.py
│ └── svm_result_process.py
.
├── ensemble_of_multiple_classifiers
│ ├── corpus
│ ├── dic
│ ├── temporary
│ ├── performance.py
│ ├── process.py
│ └── pytc.py