/denguetese

Artefatos desenvolvidos para pesquisa de doutorado para avaliação do programa de combate à dengue.

Primary LanguageJupyter Notebook

Metodologia baseada em ciência de dados para avaliação do programa de combate à dengue

Códigos desenvolvidos durante a pesquisa de doutorado para avaliação do programa de combate à dengue.

Informações Gerais

  • Autor: Fernando Xavier
  • Orientador: Antonio Mauro Saraiva
  • Instituição: Escola Politécnica da Universidade de São Paulo
  • Data da Defesa: 01/09/2023
  • Texto completo: Link da tese
  • Vídeo da defesa: YouTube

Dados do Estudo

Dados Técnicos

  • Linguagem de programação: Python
  • Ambiente de desenvolvimento: Google Colab
  • Armazenamento: Google Drive, MySQL, PostgreSQL, BigQuery

Fontes de Dados

Categoria Fonte Acesso
Ações SUCEN Restrito
Clima WorldClim Historical climate data
PIB IBGE PIB Municípios
Investimentos SIOPS Municípios/Série Histórica de Indicadores
IDHM IPEA Bases
Casos DATASUS SINAN
Unidades Básicas de Saúde DATASUS Estabelecimentos
Infestação SUCEN Restrito
Profissionais de Saúde DATASUS CNES
Uso do Solo MapBiomas Estatísticas
População Urbana SNIS Municípios/Informações e indicadores municipais consolidados
Água e Esgoto SNIS Água e Esgotos/Informações e indicadores agregados

Experimentos

Experimento 1

Analiação dos componentes do modelo de Donabedian de acordo com o contexto.

Experimento 2

Painel BI para monitoramento contínuo de indicadores baseados no modelo de Donabedian.

Arquitetura da Solução

O ciclo de vida dos dados para esta pesquisa foi baseado em um processo ELT (extract-load-transform) que, no contexto de um Data Lake, inverte as etapas de carga e transformação de um tradicional processo de ETL (extract-transform-load). Assim, os dados são armazenados no seu estado original em um Data Lake e transformados de acordo com seus usos.

A coleta foi realizada de fontes de dados públicas e privadas e armazenadas em um repositório. No contexto desta pesquisa, apenas para fins experimentais, o repositório dos dados brutos foi o Google Drive. Em seguida, já na etapa de transformação, os dados foram agregados em indicadores e armazenados em um Data Warehouse, para o qual foi utilizado o ambiente Google BigQuery.

Por fim, os dados foram consumidos pelos dois experimentos descritos anteriormente, com utilização de scripts Python (no Experimento 1) e da ferramenta Google Looker (para o Experimento 2). Para mais detalhes do processo, consultar a tese.

Arquitetura

Preparação antes de executar

Se for usar o Google Colab

  • Suba os arquivos desejados com a mesma estrutura de pastas (caso contrário, lembre-se de ajustar referências, caso necessário)
  • Faça uma cópia do arquivo .env-template e renomeie-o como .env, indicando os valores das variáveis para o seu ambiente
  • Crie um arquivo chamado caminho_env.txt na raiz do Google Drive e aponte para o caminho do arquivo .env criado

Se não for usar o Google Colab

  • Suba os arquivos desejados com a mesma estrutura de pastas (caso contrário, lembre-se de ajustar referências, caso necessário)
  • Faça uma cópia do arquivo .env-template e renomeie-o como .env, indicando os valores das variáveis para o seu ambiente
  • Crie um arquivo chamado caminho_env.txt na raiz do projeto e aponte para o caminho do arquivo .env criado
  • Lembrar de remover as referências de conexão para o Google Drive