Dengue: O uso de ferramentas estatísticas para a propensão de uma das doenças mais negligenciadas do Brasil.
Entende-se que a Dengue é uma das doenças mais negligenciadas do Brasil, visto que, em todos os anos se observa um pico no número de casos confirmados. Observou-se que o padrão dos picos está relacionado com características climáticas de determinadas épocas do ano. Com base nisso, concretiza-se a ideia de desenvolver um plano preventivo baseado nos dados coletados.
https://www.kaggle.com/datasets/renangomes/dengue-temperatura-e-chuvas-em-campinassp
https://clima.iac.sp.gov.br/
http://www.ciiagro.org.br/ema/
Os dados de casos confirmados na cidade de Campinas/SP durante os anos de 1998 à 2014 foram coletados do SINAN (Sistema de Informação de Agravos de Notificação). Os dados pluviais foram colhidos do IAC (instituto Agrônomico de Campinas) e do Ciiagro (Centro Integrado de Informações Agrometeorológicas)
Projeto para a Disciplina de Aprendizado de Máquina da ILUM - Escola de Ciências
Professores: Daniel Cassar e James Moraes
Alunos:
- Ana Clara Batista Loponi
- Ana Clara Santos Brandão
- Heitor Ribeiro Bernardes
- Lorraine Cristina Silva Casseano
Análise de Dados - Bloco 1
Coleta de Dados:
Bloco 1
- Breve descrição sobre o projeto, motivação e objetivos;
- Análise Exploratória do Dados;
- Métodos de normalização e tratamento do Dataset original;
- Ferramentas Estatísticas: Matriz de Correlação;
- Gráficos de Análise;
- Classificação e Categorização.
Modelos de Treinamento 1 - Bloco 2
Interpretação e Treino dos Dados:
Bloco 2
- Treinando Modelos: Aprendizado Supervisionado;
- Definindo dataset de Treino e Teste;
- Baseline;
- K Vizinhos mais próximos;
- Regressão Linear;
- Árvore de Decisão;
- Floresta Aleatória;
- Desempenho dos modelos de Regressão;
- Dados Categóricos;
- Matriz de Confunsão;
- Avaliação de Hiperparâmetros.
Modelos de Treinamento 2 - Bloco 3
Interpretação e Treino dos Dados:
Bloco 3
- Aprendizado Não-Supervisionado;
- Dataset de Treino, Teste e Hiperparâmetros;
- Transformação PCA;
- Análise de Features x Componentes;
- Análise Variância;
- K-Means;
- WSS (Within-Cluster-Sum of Squared Errors);
- LOF (Algoritmo Local Outlier Factor);
- IF (Algoritmo Isolation Forest).
Validação Cruzada - Bloco 4
Melhores Técnicas usadas no Dataset:
Bloco 4
- Validação Cruzada;
- Árvore de Decisão;
- Modelo K-NN.
dataset_dengue
Dataset
Aqui!
- Data Mensal entre os anos de 1998 à 2014
- Número de Casos Confirmados
- Temperatura Média, Mínima e Máxima
dataset_categorico
Dataset Categórico
Aqui!
- A categorização, é uma alteração no dataset feita internamente, porém necessária para outros processamentos, assim para o processo de desenvolvimento, este ficará separado por didática. No entanto, ao executar o código do Bloco 1 no seu computador, tal dataset é gerado automaticamente.
DiarioAprendzMaquina
Diários de Bordo:
Desenvolvimento Semestral
Bloco 1:
- 08_02
- 08_09
- 08_16
- 08_23
Bloco 2:
- 08_30
- 09_13
- 09_20
Bloco 3:
- 10_04
- 10_25
- 11_01
Bloco 4:
- 11_08
- 11_22
- 11_29