O seguinte repositório é referente a Etapa 1 (Pergunta a responder: Este indivíduo foi diagnosticado com dengue com base nos dados disponíveis?).
Para os cenários 1 e 2, o pré-processamento foi livre, mas os algoritmos foram descritos com hiperparâmetros fixos. No cenário 2, foi solicitado que fossem encontrados os melhores hiperparâmetros que se adaptassem à base de dados com o pré-processamento realizado.
As descrições de cada etapa estão presentes no próprio código como comentários pontuais.
O nosso grupo é composto pelos seguintes integrantes:
- Gestão (Rodrigo Marçal Teixeira Faria)
- Pré-processamento (Maiara da Silva Antunes, Alexandre Pinto de Souza Ferreira)
- Programador Júnior (Leandro Silva Ferreira, Kauã Cerqueira Dias, Felipe Schuler Fernandes)
- Programador Sênior (Filipe dos Santos Freitas)
Organização das tarefas semanais dividido entre as funções (Pré-processamento, Programador Júnior e Programados Sênior), usando como ferramenta de acompanhamento o aplicativo Trello.
- Remoção de colunas com valores ausentes.
- Matriz de correlação.
- Codificação utilizando One-Hot Encoder.
- Escalonamento de características (utilizando padronização).
- Implementação dos algoritmos do Scikit Learn, e as métricas solicitadas pelos docentes.
- Divisão da base de dados em; treino, teste e validação. Sendo posteriormente corrigido pelo programador sênior.
- Foi criado o repositório no GitHub, e disponibilizado o código base, a base de dados fornecida pela SESAB e o dicionário relativo a mesma base.
- Criação da imagem Docker.
-
Houve problema com a leitura da base de dados: não foi informado no dicionário de dados o que os valores 1, 2, e 8 da coluna 'CLASSI_FIN' significam.
-
Kauã teve dificuldade de participar por problemas de horário com trabalho externo a UFBA.
-
Alexandre teve que se ausentar por problemas de saúde.
-
Felipe Schuler não compareceu aos encontros, sem comunicar ao grupo anteriormente.
- Acompanhamento das atividades através do Trello;
- Estratificação da classe ‘CLASSI_FIN’ baseado no conjunto 'y' (saída/target).
- Exibição de porcentagem das classes.
- Dashboard em Power BI;
- Inserção de gráfico da curva ROC;
- Ajuste do Docker;
- Avaliação dos Hiperparâmetros;
- Dificuldades na execução dos algoritmos, principalmente os de rede neural, devido à falta de poder de processamento nos computadores da equipe.
- A remoção da coluna ‘NU_ANO’ ocasionou a diminuição das métricas observadas.
- Felipe Schuler não compareceu aos encontros, sem comunicar ao grupo anteriormente.
- A equipe de pré-processamento (Maiara e Alexandre) não se movimentaram mais uma vez para executar as tarefas divididas pela equipe, deixando tudo a cargo do programador Sênior (Filipe dos Santos).
- Acompanhamento das atividades através do Trello.
- Mantido o mesmo pré-processamento.
- Utilização do GridSearch para procura de melhores hiperparâmetros para os algoritmos pré-definidos.
- Utilização do GridSearch para procura de melhores hiperparâmetros para os algoritmos pré-definidos.
- Assim como na execução dos algoritmos, o processamento dos hiperparâmetros demandou muito tempo e recursos computacionais.
- Acompanhamento das atividades através do Trello;
- Elaboração de gráficos para clarificar partes específicas do código foi sugerida pela Professora Daniela, como no caso da exclusão de colunas com mais de 70%.
- Houve a inserção da Matriz de Confusão e do gráfico de comparação da acurácia dos algoritmos antes e após a realização dos ajustes nos hiperparâmetros.
- Troca do GridSearch para o RandomizedSearch em busca de otimização computacional.
- Adaptação da imagem Docker.
- Alguns algoritmos, mais especificamente o de Regressão Logística e Rede Neural (MLP), apresentaram mensagens de erro devido a quantidade de iterações que foram poucas para convergir a um resultado.
- Mais uma vez, o trabalho no código foi centralizado entre os membros Leandro e Filipe dos Santos.
- Acompanhamento das atividades através do Trello.
- Concepção dos relatórios.
- Mantido o mesmo pré-processamento.
- Resolução de problemas específicos em relação a gráficos: exibição de "2e+04" na matriz de confusão, 'solver' e 'penalty' do algoritmo de Regressão Logística.
- Criação da imagem Docker final, configuração da branch padrão e entrega dos relatórios.