中文文本分类模型

基于pytorch与sklearn的中文文本分类代码集合，包括常见的传统机器学习与深度学习等模型，旨在帮助有需要的人更快上手实操，开箱即用。

介绍

实现的模型结构以下几类，具体的模型结构的讲解可以看下我的博客

这里使用的是一份公开的京东的用户评论的数据，类别：好评、差评，任务相对比较简单。为了统一数据格式，所以先用jieba分词器进行了分词，没有用领域词典、过滤停用词等。

数据集划分：

首先下载代码到本地，然后进入根目录，根据想要的模型运行相应的命令

git clone 
cd 
# 传统机器学习
bash scripts/run_ml_cls.sh 
# 传统DNN深度学习
bash scripts/run_dnn_cls.sh
# 预训练语言模型
bash scripts/run_plm_cls.sh
#

传统机器学习的启动脚本(run_ml_cls.sh)中, 可以修改model_type参数来切换不同的模型

传统DNN模型的启动脚本(run_dnn_cls.sh)中, model_type 可以取值如下，如果样本不均衡，可以考虑使用focal loss或者指定各个类别的loss权重（线性简单的可以设置为另一个类别的个数，出现越少权重越大，可以参考cnn的设置方式）

基于预训练语言模型的启动脚本(run_plm_cls.sh), model_type 可以取值：

训练用--do_train, 测试用--do_test；暂时只支持这两种
data_dir 是指数据存放的目录，可以修改启动脚本里的值指向自己的数据
data_format：如果是默认文件就用json，其他格式的文件支持words\tlabel,这种就用"wtl"；另外如果是label\twords,就用"ltw"，words用空格拼接
n_jobs: 是指用多少个cpu核，不是所有的模型都支持，所以也可以不用
output_dir: 输出的目录
task_name：可以不用改，或者你要自己写解析文件的代码也可以继承一个解析类出来

每训练100个step在开发集进行评估，选最好的模型在测试集上评估

上表所有的模型结果都没有调参，所以无法精确的进行比较，但从趋势来看，传统机器学习对于简单的分类任务也一样可以取得和传统DNN类似的效果。另外BERT无需调优（也没什么可以调的），效果确实是最好的（要显卡）

[1] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

[2] Zhou C, Sun C, Liu Z, et al. A C-LSTM neural network for text classification[J]. arXiv preprint arXiv:1511.08630, 2015.

[3] Joulin A, Grave E, Bojanowski P, et al. Fasttext. zip: Compressing text classification models[J]. arXiv preprint arXiv:1612.03651, 2016.

[4] Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.