NLP_textClassifier

基于word2vec预训练词向量； textCNN 模型；charCNN 模型；Bi-LSTM模型；Bi-LSTM + Attention 模型；Transformer 模型；ELMo 预训练模型；BERT 预训练模型的文本分类项目

一、大纲概述文本分类这个系列将会有8篇左右文章，从github直接下载代码，从百度云下载训练数据，在pycharm上导入即可使用，包括基于word2vec预训练的文本分类，与及基于近几年的预训练模型（ELMo，BERT等）的文本分类。总共有以下系列： word2vec预训练词向量 textCNN 模型 charCNN 模型 Bi-LSTM 模型 Bi-LSTM + Attention 模型 Transformer 模型 ELMo 预训练模型 BERT 预训练模型

二、数据集合数据集为IMDB 电影影评，总共有三个数据文件，在/data/rawData目录下，包括unlabeledTrainData.tsv，labeledTrainData.tsv，testData.tsv。在进行文本分类时需要有标签的数据（labeledTrainData），但是在训练word2vec词向量模型（无监督学习）时可以将无标签的数据一起用上。训练数据地址：链接：https://pan.baidu.com/s/1-XEwx1ai8kkGsMagIFKX_g 提取码：rtz8

yang-code1/NLP_textClassifier

NLP_textClassifier