/TextClassify_FourSystems

基于四系统的文本分类

Primary LanguagePython

TextClassify_FourSystems

说明

本文主要是实现NLP文本分类任务,目前该系统为四系统融合模型,其中包括基于字向量char的CNN模型和RCNN模型以及基于词向量word2vec的CNN模型和RCNN模型。目前的融合则采用权值平均法进行融合。

环境

python3
tensorflow

数据

所使用的数据为网上的cnews数据,共10个类别,分为训练集,验证集和测试集。 类别如下:

体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

训练集每个类别5千数据。共5万。验证集每个类别500,测试集每个类别1000。 训练集、验证集和测试集的文件如下: cnews.train.txt: 训练集(50000条) cnews.val.txt: 验证集(5000条) cnews.test.txt: 测试集(10000条)

Word2vec

本文这里公开了自己使用的word2vec模型,也可以自己根据自己的数据集制作词向量模型。 链接:https://pan.baidu.com/s/1dYRIPVH1N0y0gNOCw8rAuQ 提取码:g889

模型训练

训练情况如下图: image

测试

下面为模型测试效果图:

image

比较

本文的四系统较单一的CNN系统或者其他系统,其效果提升大概2个点以上(具体看应用场景)。相应的,其效率较其他单一系统略低。毕竟效率和效果之间总是要平衡的。