Detection of toxic comments in Brazilian Portuguese

Projeto 🔥

Detecção de comentários ou textos preconceituosos com processamento de linguagem natural

Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

Dataset

O conjunto de dados utilizado, foi ToLD-BR com 21000 comentários toxicos, contendo algumas labels: homophobia, obscene, insult, racism, misogyny e xenophobia.

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton (2020): Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis. Published at AACL-IJCNLP 2020. arxiv version

Conteúdo ✨

Normalização de texto
- Tokenização
- Capitalização
- Remoção de palavras vazias (stopwords)
- Lematização e/ou Radicalização (Stemming)
- Remoção de emoji que tem nos comentários do Twitter
- Utilizando a ferramenta enelvo para arrumar as palavras da internet
Embedding das palavras com Bert e Hugging Face 🤗
Classificação de texto Multilabel com Spacy e Sklearn
- Embedding das palavras com Spacy
- Técnicas de classificação utilizadas
  - Random Forest
  - Naive Bayes Classifier
  - Support Vector Machine (SVM)
  - Logistic Regression
  - Gradient Boosting
- Técnicas de amostragem
  - undersampling
  - oversampling
Classificação de texto Multilabel com Bert e Hugging Face 🤗
- Embedding das palavras com Bert
- Técnicas de classificação utilizadas
  - Random Forest
  - Naive Bayes Classifier
  - Support Vector Machine (SVM)
  - Logistic Regression
  - Gradient Boosting
- Técnicas de amostragem
  - oversampling - SMOTE
Classificação de texto binária com Bert
- Embedding das palavras com Bert
- Técnicas de classificação utilizadas
  - Random Forest
  - Naive Bayes Classifier
  - Support Vector Machine (SVM)
  - Logistic Regression
  - Gradient Boosting
- Técnicas de amostragem
  - oversampling - SMOTE
Classificação de texto binária com Bert e Keras
- Embedding das palavras com Bert
- Deep learning com keras
- Técnicas de amostragem
  - oversampling - SMOTE

Notebooks 💻

Normalização de texto
Embedding das palavras com Bert
Classificação de texto Multilabel com Spacy e Sklearn
Classificação de texto Multilabel com BERT
Classificação de texto binária com BERT 🤗
Classificação de texto binária com BERT, Keras e Hugging Face 🤗

Como usar esse conteúdo❓

Precisa ter o dataset ToLD-BR
- Para obter o dataset acesse o link https://github.com/JAugusto97/ToLD-Br#readme
Precisa ter o modelo BERT pré-treinado
- Para obter o modelo acesse a pagina do huggingface 🤗 https://huggingface.co/neuralmind/bert-base-portuguese-cased
Para utilizar os Notebooks
- No tópico Notebooks tem o botão do colab , clique no botão para abrir o notebook.
- Bibliotecas e pacotes já estão no colab.
- Como utilizar o google colab?
  - acesse esse link https://colab.research.google.com/github/anthony-agbay/python-resource-guide/blob/master/notebooks/intro-notebooks.ipynb

Licença 🚩

The source code for the site is licensed under the MIT license, which you can find in the LICENSE file.