Este projeto tem como objetivo classificar e-mails como spam ou não spam, utilizando técnicas de aprendizado de máquina. Ele foi desenvolvido em Python e utiliza o Jupyter Notebook como ambiente de desenvolvimento. A base de dados utilizada foi obtida do Apache SpamAssassin e consiste em informações sobre e-mails já classificados como spam ou não spam. O projeto compara diferentes algoritmos de classificação, utilizando o Tuning de parâmetros e a Validação Cruzada, para encontrar o melhor algoritmo para classificar os e-mails.
Para utilizar este projeto, você precisará ter o Python e o Jupyter Notebook instalados em sua máquina. Além disso, é necessário instalar as dependências listadas no arquivo requirements.txt
. Você pode instalá-las usando o comando pip install -r requirements.txt
no terminal.
- Faça o download ou clone este repositório para sua máquina.
- Abra o Jupyter Notebook e abra o arquivo Email-Spam-Classification.ipynb.
- Siga as instruções no notebook para carregar a base de dados.
- Explore os resultados e faça modificações no código para testar diferentes hipóteses e configurações.
Sinta-se à vontade para contribuir com este projeto. As contribuições são sempre bem-vindas!
Este projeto está licenciado sob a licença MIT. Veja o arquivo LICENSE para mais detalhes.
A base de dados utilizada neste projeto foi obtida do Apache SpamAssassin: https://spamassassin.apache.org/old/publiccorpus/.