Pytorch 文本(长文本)分类任务 Demo

本demo是在学习和练习文本分类的过程中记录下来的一个demo。主要是温习和练习一些基本的文本分类神经网络。文档里面实现的方法基本都有详细的说明，主要是方便后期查看。

Demo实现的是长文本分类问题，主要是**是将长文本保留，在embedding后将每个句子整合成一个向量（采用每个词相加，或者最大池化的方式进行处理，本demo采用的是最大池化），然后进行正常的文本分类操作。

本Demo主要基于** Pytorch_Text_Classification_Demo**的基础进行修改，两个demo的区别就在于一个是处理短文本一个是处理长文本，其他的处理都是一样的。

注意

数据集

搜狗新闻数据语料地址这里下载处理的是 347M的简版

新闻语料中主要有包含多个类别，由于考虑到样本量和样本均衡情况，只选取前4种样本量比较多且较为均衡的类别作为项目的数据集。

处理后数据情况：更为详细的数据情况请移步到datas/sougouNew/下面的Readme文件中查看

训练集和验证集样本情况

注意：训练集和测试集做过缺失值处理。经过处理后的文本每行包含一个样本，文本和标签用'\t'分开，前面为文本，标签在后面。

训练集样本数量：263505 验证集样本数量：30000

训练集中数据情况

注意：详细训练结果保存在 public/log 文件夹下

以下结果去验证集中最好的结果（分别对字级别和词级别进行训练）

结果分析：从训练结果来看，每个网络的准确率都很高，而且差距都很小，应该是样本大部分类别特征很明显，所以导致无论用哪一个网络效果都很好，然而也不能提到非常高的准确率应该是存在一部分样本是很难区分的，甚至是带有迷惑性的。从结果来看，对于特征明显的长文本，此种处理方法是可行的。