Multilabel классификация интернет комментариев по классам токсичности. В pdf файле - обзорн хода работы. Упор делался на нейросетевые подходы. Для работы необходимо следующее:
- Python 3.*, ниже 3.7 - для поддержки TensorFlow
- Tensorflow, keras
- nltk
- numpy, pandas, sklearn, re
- Скачать и поместить FastText pretrained embedding с размерностью 300: https://dl.fbaipublicfiles.com/fasttext/vectors-english/crawl-300d-2M-subword.zip
Для сравнения, прилагается ipyb notebook с решением той же задачи с помощью линейной регрессии. В ноутбуках используется matplotlib для построения графикоф и tqdm для отображения хода работы.