/bootcamp_dsa_2021

Produções realizadas no Bootcamp de Data Science Aplicada da Alura

Primary LanguageHTML

Bootcamp DSA 2021 da Alura Cursos Online

Produções realizadas no Bootcamp de Data Science Aplicada da Alura. Trata-se de uma formação intensiva em Ciência de Dados, utilizando principalmente Python e Jupyter Notebooks.

🧑‍⚕️ Na primeira edição, a temática foi Saúde, explorando bases de dados abertas de várias fontes:

dentre outras.

👨‍💻 Algumas hard-skills desenvolvidas no curso:

  • pandas e
  • seaborn e matplotlib
  • statsmodels e sklearn
  • pmdarima e fbprophet

📅 Início dia 04/11/2020 e término dia 10/03/2021.

Módulo 01: Trabalhando com dados do DataSUS

No primeiro módulo tento analisar características importantes dos dados de procedimentos hospitalares. Sazonalidade no número de óbitos em cada ano é um ponto de destaque. Também enumero a natureza das doenças que causam mais óbitos a partir dos dados do SUS entre 2011 e 2018. Doenças respiratórias são a 4ª causa de morte mais frequente, correspondendo a aproximadamente 31% dos óbitos em cada ano.

📗 Acesse aqui o meu Projeto 01.

Módulo 02: Dados de Vacinação

📓 Projeto em andamento.

Módulo 03: Dados de Saúde na Educação (PENSE 2015)

Neste módulo, foram analisados os dados Pesquisa Nacional de Saúde do Escolar - PeNSE. O objetivo foi encontrar pontos importantes através de análise exploratória de dados. Alguns conceitos de testes de normalidade e teste de hipótese (paramétricos e não-paramétricos) foram utilizados para fins de estudo.

📗 Acesse aqui o meu Projeto 03.

Módulo 04: Análise de Séries Temporais com dados de COVID-19 no Brasil

Neste módulo, trabalhamos com análise de séries temporais utilizando dados de caso de tuberculose desde 2001, retirados do DataSUS. A ênfase foi na análise de séries temporais, incluindo:

  • análise de médias móveis e resampling
  • funções de autocorrelação
  • decomposição de séries temporais (tendência, sazonalidade e resíduos)
  • previsões com modelos ARMA, ARIMA, SARIMA e AUTOARIMA.

📓 Projeto em andamento.

Optei por dedicar a maior parte do tempo explorando a ferramenta Streamlit, um framework de desenvolvimento de aplicativos Python voltado para aplicações com ciência de dados e aprendizagem de máquina. A partir do exemplo trabalhado no curso, aprofundei um pouco mais para construir uma aplicação que analisa os dados de COVID-19 e tenta encontrar parâmetros epidemiológicos do modelo matemático SIR (susceptíveis, infectados e recuperados).

📔 📱 Veja aqui a página do meu aplicativo no Streamlit.

📚 Acesse aqui o código fonte do app.

Módulos 05 e 06: Aplicações de Aprendizagem de Máquina na área da Saúde

Neste projeto, estou utilizando o conjunto de dados COVID-19 - Clinical Data to assess diagnosis, disponibilizado pelo Time de Inteligência de dados do Hospital Sírio-Libanês. São informações de pacientes cuja contaminação com o vírus COVID-19 foi confirmada. O objetivo principal do projeto é analisar os dados e encontrar características que possam distinguir pacientes que irão demandar internação na ICU dos que não irão desenvolver sintomas graves o suficiente para essa internação.

📗 Acesse o meu Projeto Final diretamente no Google Colab.

Como faz parte do projeto final para certificação do bootcamp, este último caderno em Jupyter é mais longo e mais detalhado, cumprindo diversos requisitos de avaliação e envolvendo muitos dos conhecimentos trabalhados na formação.