- Detecção de comentários ou textos preconceituosos com processamento de linguagem natural
Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.
O conjunto de dados utilizado, foi ToLD-BR com 21000 comentários toxicos, contendo algumas labels: homophobia, obscene, insult, racism, misogyny e xenophobia.
João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton (2020): Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis. Published at AACL-IJCNLP 2020. arxiv version
-
Normalização de texto
- Tokenização
- Capitalização
- Remoção de palavras vazias (stopwords)
- Lematização e/ou Radicalização (Stemming)
- Remoção de emoji que tem nos comentários do Twitter
- Utilizando a ferramenta enelvo para arrumar as palavras da internet
-
Embedding das palavras com Bert e Hugging Face 🤗
-
Classificação de texto Multilabel com Spacy e Sklearn
- Embedding das palavras com Spacy
- Técnicas de classificação utilizadas
- Random Forest
- Naive Bayes Classifier
- Support Vector Machine (SVM)
- Logistic Regression
- Gradient Boosting
- Técnicas de amostragem
- undersampling
- oversampling
-
Classificação de texto Multilabel com Bert e Hugging Face 🤗
- Embedding das palavras com Bert
- Técnicas de classificação utilizadas
- Random Forest
- Naive Bayes Classifier
- Support Vector Machine (SVM)
- Logistic Regression
- Gradient Boosting
- Técnicas de amostragem
- oversampling - SMOTE
-
Classificação de texto binária com Bert
- Embedding das palavras com Bert
- Técnicas de classificação utilizadas
- Random Forest
- Naive Bayes Classifier
- Support Vector Machine (SVM)
- Logistic Regression
- Gradient Boosting
- Técnicas de amostragem
- oversampling - SMOTE
-
Classificação de texto binária com Bert e Keras
- Embedding das palavras com Bert
- Deep learning com keras
- Técnicas de amostragem
- oversampling - SMOTE
-
Precisa ter o dataset ToLD-BR
- Para obter o dataset acesse o link https://github.com/JAugusto97/ToLD-Br#readme
-
Precisa ter o modelo BERT pré-treinado
- Para obter o modelo acesse a pagina do huggingface 🤗 https://huggingface.co/neuralmind/bert-base-portuguese-cased
-
Para utilizar os Notebooks
The source code for the site is licensed under the MIT license, which you can find in the LICENSE file.