/Machine_Learning_Casos_de_Dengue

Desenvolvido por alunos da ILUM: Ana Clara Batista Loponi, Ana Clara Santos Brandão, Heitor Bernardes, Lorraine Casseano

Primary LanguageJupyter Notebook

Dengue: O uso de ferramentas estatísticas para a propensão de uma das doenças mais negligenciadas do Brasil.

Utilizando Machine Learning para a previsão de casos de Dengue em Campinas/SP

Entende-se que a Dengue é uma das doenças mais negligenciadas do Brasil, visto que, em todos os anos se observa um pico no número de casos confirmados. Observou-se que o padrão dos picos está relacionado com características climáticas de determinadas épocas do ano. Com base nisso, concretiza-se a ideia de desenvolver um plano preventivo baseado nos dados coletados.

Fontes:

https://www.kaggle.com/datasets/renangomes/dengue-temperatura-e-chuvas-em-campinassp
https://clima.iac.sp.gov.br/
http://www.ciiagro.org.br/ema/

Os dados de casos confirmados na cidade de Campinas/SP durante os anos de 1998 à 2014 foram coletados do SINAN (Sistema de Informação de Agravos de Notificação). Os dados pluviais foram colhidos do IAC (instituto Agrônomico de Campinas) e do Ciiagro (Centro Integrado de Informações Agrometeorológicas)

Desenvolvimento:

Projeto para a Disciplina de Aprendizado de Máquina da ILUM - Escola de Ciências

Professores: Daniel Cassar e James Moraes

Alunos:

  • Ana Clara Batista Loponi
  • Ana Clara Santos Brandão
  • Heitor Ribeiro Bernardes
  • Lorraine Cristina Silva Casseano

Guia do Repositório:

Blocos de Desenvolvimento
Análise de Dados - Bloco 1

Coleta de Dados: Bloco 1
- Breve descrição sobre o projeto, motivação e objetivos;
- Análise Exploratória do Dados;
- Métodos de normalização e tratamento do Dataset original;
- Ferramentas Estatísticas: Matriz de Correlação;
- Gráficos de Análise;
- Classificação e Categorização.

Modelos de Treinamento 1 - Bloco 2

Interpretação e Treino dos Dados: Bloco 2
- Treinando Modelos: Aprendizado Supervisionado;
- Definindo dataset de Treino e Teste;
- Baseline;
- K Vizinhos mais próximos;
- Regressão Linear;
- Árvore de Decisão;
- Floresta Aleatória;
- Desempenho dos modelos de Regressão;
- Dados Categóricos;
- Matriz de Confunsão;
- Avaliação de Hiperparâmetros.

Modelos de Treinamento 2 - Bloco 3

Interpretação e Treino dos Dados: Bloco 3
- Aprendizado Não-Supervisionado;
- Dataset de Treino, Teste e Hiperparâmetros;
- Transformação PCA;
- Análise de Features x Componentes;
- Análise Variância;
- K-Means;
- WSS (Within-Cluster-Sum of Squared Errors);
- LOF (Algoritmo Local Outlier Factor);
- IF (Algoritmo Isolation Forest).

Validação Cruzada - Bloco 4

Melhores Técnicas usadas no Dataset: Bloco 4
- Validação Cruzada;
- Árvore de Decisão;
- Modelo K-NN.

Banco de Dados
dataset_dengue

Dataset Aqui!
- Data Mensal entre os anos de 1998 à 2014
- Número de Casos Confirmados
- Temperatura Média, Mínima e Máxima

dataset_categorico

Dataset Categórico Aqui!
- A categorização, é uma alteração no dataset feita internamente, porém necessária para outros processamentos, assim para o processo de desenvolvimento, este ficará separado por didática. No entanto, ao executar o código do Bloco 1 no seu computador, tal dataset é gerado automaticamente.

Diários de Bordo
DiarioAprendzMaquina

Diários de Bordo: Desenvolvimento Semestral

Bloco 1:
- 08_02
- 08_09
- 08_16
- 08_23

Bloco 2:
- 08_30
- 09_13
- 09_20

Bloco 3:
- 10_04
- 10_25
- 11_01

Bloco 4:
- 11_08
- 11_22
- 11_29