/toxic_comments_classification

Classification of Russian comments into toxic and non-toxic based on data from 2ch.

Primary LanguageJupyter Notebook

toxic_comments_classification

NOTE: В ноутбуке содержатся нецензурные и оскорбительные слова. Такова была специфика задачи, я не хотел ни коим образом никого оскорбить. Все слова и выражения были использованы исключительно в целях исследования.

Задача

Бинарная классификация комментариев на русском языке.

Классы: 'токсичные', 'нетоксичные'.

Данные

Данные взяты с портала kaggle, способ их загрузки имеется в ноутбуке, никаких внешних данных, кроме токена kaggle (как его получить я также описал в ноутбуке), не понадобится. Ссылка на датасет.

Модели

Модели библиотеки scikit-learn:

  • Logistic Regression
  • SVM
  • SGDClassifier
  • Naive Bayes
  • Random Forest

Также были использованы 2 предобученные модели с портала Hugging Face:

  • SISmetanin
  • Skolkovo

Подробные результаты вы можете посмотреть в последнем разделе моего ноутбука.