- PyTorch Text Classification Benchmarks on IMDB Datasets 🔥
- pandas
- numpy
- matplotlib
- PyTorch
- torchkeras
- IMDB
- CNN ( orginal from this repository: 《20天吃掉那只PyTorch》 --《1-3 文本数据建模流程》 )
- BiLSTM
- ...
Methods | accuracy | valid accuracy |
---|---|---|
CNN | 0.935 | 0.808 |
CNN + Glove | 0.999 | 0.880 |
CNN (Multi Channel) | 0.846 | 0.814 |
BiLSTM | 0.862 | 0.833 |
BiLSTM + Glove | 0.994 | 0.886 |
BiLSTM + SelfAttention |
- A new Dataloader:
- 原Dataloader将每一个样本都切分成一个txt文件存放样本特征,造成了大规模的文件I/O操作,大大增加了时间开销(尤其是在GPU上进行训练时)
- 重写的Dataloader只需要load数据预处理时已经处理好的text token tsv,不需要对train_samles和test_samples下的文件进行I/O操作。
- glove 词向量:
- Download: http://nlp.stanford.edu/data/glove.6B.zip
- 解压至glove.6B folder (主要使用glove.6B.100d.txt)