Este projeto visa analisar um conjunto de dados visando classificá-lo usando técnicas e modelos de predição, e discutir acerca do desempenho e métricas obtidas, assim como os próximos passos para sua aprimoração.
O conjunto de dados utilizado é chamado Sentiment Analysis for Mental Health, e é derivado de várias fontes, como postagens em mídias sociais, Reddit, Twitter, entre outras, permitindo uma ampla análise do comportamento textual relacionado à saúde mental.
Para rodar este projeto, siga os seguintes passos:
- Clone este repositório:
https://github.com/cribeirop/Exame_Intermediario_NLP
- Crie um ambiente virtual e o ative:
- Criando
venv
:
python3 -m venv venv
- Activando:
ousource venv/bin/activate
ou.\venv\bin\Activate.ps1
.\env\Scripts\activate
- Criando
- Instalar bibliotecas:
pip install -r requirements.txt
-
Certifique-se que o dataset esteja com o nome correto (mental_health_analysis.csv), e na pasta raiz.
-
Abra o arquivo ipynb no Jupyter Notebook ou mesmo VS Code para rodá-lo.
- Pré-processamento dos Dados
- Uso de Bag-of-Words
- Execução do Classificador e Diferentes Tipos de Modelos
- Avaliação das Palavras Mais Importantes Para a Classificação
- Tamanho do Dataset e Downsampling
- Usando Modelos de Tópicos
- Classificador de Duas Camadas