/toxic_comment_detection

Detecção de comentários ou textos preconceituosos com processamento de linguagem natural. Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

Primary LanguageJupyter NotebookMIT LicenseMIT

Detection of toxic comments in Brazilian Portuguese

Projeto 🔥

  • Detecção de comentários ou textos preconceituosos com processamento de linguagem natural

Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

Dataset

O conjunto de dados utilizado, foi ToLD-BR com 21000 comentários toxicos, contendo algumas labels: homophobia, obscene, insult, racism, misogyny e xenophobia.

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton (2020): Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis. Published at AACL-IJCNLP 2020. arxiv version

Conteúdo ✨

  • Normalização de texto

    • Tokenização
    • Capitalização
    • Remoção de palavras vazias (stopwords)
    • Lematização e/ou Radicalização (Stemming)
    • Remoção de emoji que tem nos comentários do Twitter
    • Utilizando a ferramenta enelvo para arrumar as palavras da internet
  • Embedding das palavras com Bert e Hugging Face 🤗

  • Classificação de texto Multilabel com Spacy e Sklearn

    • Embedding das palavras com Spacy
    • Técnicas de classificação utilizadas
      • Random Forest
      • Naive Bayes Classifier
      • Support Vector Machine (SVM)
      • Logistic Regression
      • Gradient Boosting
    • Técnicas de amostragem
      • undersampling
      • oversampling
  • Classificação de texto Multilabel com Bert e Hugging Face 🤗

    • Embedding das palavras com Bert
    • Técnicas de classificação utilizadas
      • Random Forest
      • Naive Bayes Classifier
      • Support Vector Machine (SVM)
      • Logistic Regression
      • Gradient Boosting
    • Técnicas de amostragem
      • oversampling - SMOTE
  • Classificação de texto binária com Bert

    • Embedding das palavras com Bert
    • Técnicas de classificação utilizadas
      • Random Forest
      • Naive Bayes Classifier
      • Support Vector Machine (SVM)
      • Logistic Regression
      • Gradient Boosting
    • Técnicas de amostragem
      • oversampling - SMOTE
  • Classificação de texto binária com Bert e Keras

    • Embedding das palavras com Bert
    • Deep learning com keras
    • Técnicas de amostragem
      • oversampling - SMOTE

Notebooks 💻

  • Normalização de texto Open In Colab

  • Embedding das palavras com Bert Open In Colab

  • Classificação de texto Multilabel com Spacy e Sklearn Open In Colab

  • Classificação de texto Multilabel com BERT Open In Colab

  • Classificação de texto binária com BERT 🤗 Open In Colab

  • Classificação de texto binária com BERT, Keras e Hugging Face 🤗 Open In Colab

Como usar esse conteúdo❓

Licença 🚩

The source code for the site is licensed under the MIT license, which you can find in the LICENSE file.