Curso de Especialização de Inteligência Artificial Aplicada
Setor de Educação Profissional e Tecnológica - SEPT
Universidade Federal do Paraná - UFPR
IAA003 - Linguagem de Programação Aplicada
Prof. Alexander Robert Kutzke
Altere o código do arquivo spam_classifier.py para adicionar algumas das seguintes funcionalidades:
- Utilizar a biblioteca NumPy se considerar pertinente;
- Utilizar a biblioteca Pandas se considerar pertinente;
- Analisar o conteúdo da mensagem e não apenas o Assunto;
- Considerar apenas palavras que aparecem um número mínimo de vezes
(
min_count); - Utilizar apenas radicais das palavras (pesquise por "Porter Stemmer");
- Considerar não apenas presença de palavras, mas outras características:
- Por exemplo, se a mensagem possuí números:
- A função
tokenizerpode retornar tokens especiais para isso (por exemplo:contains:number).
- A função
- Por exemplo, se a mensagem possuí números:
Comente seu código indicando as alterações realizadas.
Você pode, ainda, realizar testes de desempenho para cada uma das alterações realizadas (se for pertinente).
- As linhas do script
spam_classifier.pyque tiveram alterações estão comentados com o prefixo# Change:. - Foi utilizado a biblioteca
dynaconfpara fazer o controle das configurações que foram introduzidas no código. As configurações estão centralizadas no arquivosettings.toml, onde é possível habilitar ou desabilitá-las. - Foi implementado um algoritmo,
run_all_possibilities.py,para testar todas as configurações possíveis, de modo a encontrar a configuração que tivesse o melhor desempenho. A melhor configuração encontrada está no arquivosettings.toml.