/Text-Classification-on-IMDB

PyTorch Text Classification Benchmarks on IMDB Datasets

Primary LanguageJupyter Notebook

Text-Classification-on-IMDB

1. Guidance

  • PyTorch Text Classification Benchmarks on IMDB Datasets 🔥

Dependencies

  • pandas
  • numpy
  • matplotlib
  • PyTorch
  • torchkeras

2. Have Done

Dataset

  • IMDB

Methods

Methods accuracy valid accuracy
CNN 0.935 0.808
CNN + Glove 0.999 0.880
CNN (Multi Channel) 0.846 0.814
BiLSTM 0.862 0.833
BiLSTM + Glove 0.994 0.886
BiLSTM + SelfAttention

改进

  • A new Dataloader:
    • 原Dataloader将每一个样本都切分成一个txt文件存放样本特征,造成了大规模的文件I/O操作,大大增加了时间开销(尤其是在GPU上进行训练时)
    • 重写的Dataloader只需要load数据预处理时已经处理好的text token tsv,不需要对train_samles和test_samples下的文件进行I/O操作。

3. Others