/suicities-datasus

Primary LanguageJupyter Notebook

Variáveis do DATASUS que mais impactam a saúde mental das cidades

Objetivo

O objetivo deste projeto de TCC é descobrir quais são as variáveis do DATASUS que têm maior impacto na saúde mental das cidades, com foco principalmente na questão do suicídio nos municípios brasileiros.

Organização do repositório

O projeto está organizado na seguinte estrutura de diretórios:

  • 📁 CSV: Arquivos em formato csv
    • 📁 Cadmun: Fonte
      • 📄 CADMUN.csv: Cadastro de municípios (contém MUNCOD e Nome do município).
    • 📁 Population: Fonte
      • 📄 population_08_18.csv: População por município (2008-2018).
    • 📁 SatScan
      • 📄 case_file.csv: Case file para ser utilizado pelo software SatScan. Contém o número de suicídios por município e por ano.
      • 📄 coordinates.csv: Coordinates file para ser utilizado pelo software SatScan. Contém as coordenadas geográficas de cada município.
      • 📄 muncod_risk.csv: Municípios de alto risco, determinados pela análise feita com o software SatScan.
      • 📄 population.csv: Population file para ser utilizado pelo software SatScan. Contém a população de cada município por ano.
    • 📁 Suicide: Fonte
      • 📄 suicide_count_08_18.csv: Número de suicídios por município (2008-2018).
      • 📄 suicide_rates_08_18.csv: Taxa de suicídios (por 100 mil habitantes) por município (2008 - 2018).
    • 📁 TabNet: Fonte
      • 📁 Internacoes: Quantidades de ocorrências de cada doença por mês por município (2008-2018).
      • 📁 Internacoes_Anual: Quantidades de ocorrências de cada doença por ano por município (2008-2018).
      • 📁 Internacoes_Rate: Taxa de ocorrências de cada doença por ano por município (2008-2018).
      • 📄 Suicides: Taxa de suicídio por ano por município (2008-2018).
  • 📁 EDA: Primeira análise exploratória de dados baseada nos Dados de óbito (DO) do DATASUS.
  • 📁 Models: Modelos realizados com base nos rates de doenças em cada município.
    • 📁 Classification: Modelos de classificação de cidades por risco. Cada um dos modelos foi treinado utilizando-se 4 diferentes estratégias de preenchimentos de dados nulos.
      • 📁 LogisticRegression: Modelo de classificação utilizando função logística.
      • 📁 RandomForest: Modelo de regressão utilizando árvores de decisão.
      • 📁 XGBoost: Modelo de ensemble de árvores de decisão.
    • 📁 Regression: Modelos de predição de rates de suicídio e de diversas doenças.
      • 📄 lasso.ipynb: Modelo de regressão linear com regularização L1 e seleção de variáveis.
      • 📄 multiple_linear_regression.ipynb: Modelo de regressão linear simples.
      • 📄 random_forest_regression.ipynb: Modelo de árvores de decisão.
      • 📄 ridge.ipynb: Modelo de regressão linear com regularização L2.
      • 📁 time_series: Modelagem com Time Series dos rates nos anos de 2015-2018 (a completar).
    • 📁 LinearModels: Primeiros modelos lineares (deprecated).
  • 📁 PySal
    • 📄 ESDA.ipynb: Análise exploratória espacial (ESDA) usando a biblioteca PySal para calcular Moran's BV I (autocorrelação espacial).
  • 📁 SatScan: Análises feitas com o software SatScan
    • 📁 Clusters: Output do software SatScan (análise feita no período 2008-2018).
    • 📁 Images: Imagens geradas durante a análise dos clusters.
    • 📄 satscan.ipynb: Análise dos resultados obtidos pelo SatScan.
    • 📄 satscan_data_processing.ipynb: Processamento de dados para serem utilizados pelo software.
  • 📁 Spearman: Cálculo de correlação de Spearman entre rates de doenças e rates de suicídio, utiliza dados de Morbidade do DATASUS.
    • 📄 spearman_analysis.ipynb: correlação de Spearman (2008-2018).
  • 📁 TabNet: Tratamento de dados provenientes da plataforma TabNet do DATASUS
    • 📄 suicide_format_data.ipynb: tratamento de dados referentes ao suicídio.
    • 📄 diseases_format_data.ipynb: tratamento de dados referentes às doenças.

Autores

Este projeto está sendo desenvolvido pelos alunos de Engenharia de Computação Quadrimestral (2020) da Escola Politécnica da USP:

  • Leonardo Borges Mafra Machado - 9345213
  • Marcos Paulo Pereira Moretti - 9345363
  • Paula Yumi Pasqualini - 9345280

O projeto está sendo orientado pelo Professor Dr. Ricardo Luis de Azevedo da Rocha.

Colaboradores

Este projeto está sendo realizado em parceria com o C²D e o Itaú Unibanco.