基于词嵌入的文本分类

训练和测试命令

python main.py train --batch-size=100 --plot-every=200

python main.py test --model-path="checkpoints/_9.pth"

测试结果存入submission.csv文件中。该任务是一个情感分类任务，共分为五类。

这里只使用了torch自带的LSTM进行了简单的训练。

实现Continuous BOW模型、CNN、RNN的文本分类，并进行效果对比。

词用embedding的方式初始化:

使用google训练好的GoogleNews-vectors-negative300来进行初始化，并将weight赋给 nn.embedding使用。

没有对停用词进行处理，未对词干进行处理，一些没用的而且是在word级别上进行的分类，可以尝试phrase级别。

没有使用防止过拟合的策略，仅仅跑了几个epoch而已，准确率不会太高。