Produções realizadas no Bootcamp de Data Science Aplicada da Alura. Trata-se de uma formação intensiva em Ciência de Dados, utilizando principalmente Python e Jupyter Notebooks.
🧑⚕️ Na primeira edição, a temática foi Saúde, explorando bases de dados abertas de várias fontes:
- DataSUS Tabnet,
- pesquisa de saúde escolar do IBGE,
- dados de COVID-19 do governo federal,
- dados de COVID-19 do hospital Sírilo Libanês,
dentre outras.
👨💻 Algumas hard-skills desenvolvidas no curso:
pandas
eseaborn
ematplotlib
statsmodels
esklearn
pmdarima
efbprophet
📅 Início dia 04/11/2020 e término dia 10/03/2021.
No primeiro módulo tento analisar características importantes dos dados de procedimentos hospitalares. Sazonalidade no número de óbitos em cada ano é um ponto de destaque. Também enumero a natureza das doenças que causam mais óbitos a partir dos dados do SUS entre 2011 e 2018. Doenças respiratórias são a 4ª causa de morte mais frequente, correspondendo a aproximadamente 31% dos óbitos em cada ano.
📗 Acesse aqui o meu Projeto 01.
📓 Projeto em andamento.
Neste módulo, foram analisados os dados Pesquisa Nacional de Saúde do Escolar - PeNSE. O objetivo foi encontrar pontos importantes através de análise exploratória de dados. Alguns conceitos de testes de normalidade e teste de hipótese (paramétricos e não-paramétricos) foram utilizados para fins de estudo.
📗 Acesse aqui o meu Projeto 03.
Neste módulo, trabalhamos com análise de séries temporais utilizando dados de caso de tuberculose desde 2001, retirados do DataSUS. A ênfase foi na análise de séries temporais, incluindo:
- análise de médias móveis e resampling
- funções de autocorrelação
- decomposição de séries temporais (tendência, sazonalidade e resíduos)
- previsões com modelos ARMA, ARIMA, SARIMA e AUTOARIMA.
📓 Projeto em andamento.
Optei por dedicar a maior parte do tempo explorando a ferramenta Streamlit, um framework de desenvolvimento de aplicativos Python voltado para aplicações com ciência de dados e aprendizagem de máquina. A partir do exemplo trabalhado no curso, aprofundei um pouco mais para construir uma aplicação que analisa os dados de COVID-19 e tenta encontrar parâmetros epidemiológicos do modelo matemático SIR (susceptíveis, infectados e recuperados).
📔 📱 Veja aqui a página do meu aplicativo no Streamlit.
📚 Acesse aqui o código fonte do app.
Neste projeto, estou utilizando o conjunto de dados COVID-19 - Clinical Data to assess diagnosis, disponibilizado pelo Time de Inteligência de dados do Hospital Sírio-Libanês. São informações de pacientes cuja contaminação com o vírus COVID-19 foi confirmada. O objetivo principal do projeto é analisar os dados e encontrar características que possam distinguir pacientes que irão demandar internação na ICU dos que não irão desenvolver sintomas graves o suficiente para essa internação.
📗 Acesse o meu Projeto Final diretamente no Google Colab.
Como faz parte do projeto final para certificação do bootcamp, este último caderno em Jupyter é mais longo e mais detalhado, cumprindo diversos requisitos de avaliação e envolvendo muitos dos conhecimentos trabalhados na formação.