/TextClassificationBenchmark

A Benchmark of Text Classification in PyTorch

Primary LanguagePython

TextClassificationBenchmark

A Benchmark of Text Classification in PyTorch

我们这个项目的主要目标是实现一些文本的baseline,主要从两个方面来做

1.收集一些主要的文本分类的数据集,中文和英文,最好还能够提供一个基础的embedding向量

2.实现一些state-of-art的文本分类模型,包括基础的机器学习方法,朴素贝叶斯+TFIDF和一些基于CNN/RNN的文本分类方法

在这样一个benchmark上做一些基础方法的比较

首先你可能需要安装一些基础的库 安装库

python3
torch
torchtext

第二你可能需要把数据配置好,数据配置 包括

Glove词向量
情感文本分类数据集IMDB

跑默认配置

python main.py

CNN

python main.py -model cnn

LSTM

python main.py -model lstm

###Contributor

Welcome your issues and contribution!!!