Neste bootcamp serão desenvolvidos projetos reais na área da saúde divididos em 6 módulos, onde técnicas de análise de dados, estatÃstica, modelagem e visualização de dados de forma prática e aplicada serão aprofundadas.
O objetivo é aprender Python, Pandas, Matplotlib, Seaborn, Scikit-Learn e diversas outras bibliotecas Python; compreender o workflow de um projeto de Data Science; saber como estruturar e comunicar seus resultados para justificar as análises e conclusões, mostrando o quão importante é o papel dos dados para otimizar processos e resultados.
-
Módulo 01: Python e Pandas para análise de dados reais
Neste módulo vamos aprender como utilizar Python, Pandas e Matplotlib para explorar os dados financeiros do SUS, mais precisamente os gastos por Unidade Federativa ao longo dos anos. Os desafios se iniciam na aquisição dos dados em uma plataforma do governo e seus possÃveis problemas, passando pelo leitura destes dados com o Pandas até a criação de hipóteses na área da saúde, que sempre devem ser cuidadosas, simulando os desafios diários de uma pessoa cientista de dados. -
Módulo 02: Visualização de dados com Seaborn e Matplotlib
Neste módulo seguiremos nas análises dos dados financeiros do SUS. Vamos mais fundo no tratamento e manipulação dos dados para análises mais complexas, utilizando recursos mais avançados do Pandas e da Linguagem Python como um todo. Fontes de dados externas serão utilizadas para enriquecer a análise exploratória e realizar comparações mais precisas entre os diferentes estados. Além disso, discutiremos mais sobre boas práticas de visualização, interpretação de gráficos e sua construção com o Seaborn. -
Módulo 03: EstatÃstica com python para análise de dados
Trabalharemos com a base de dados PeNSE (Pesquisa Nacional da Saúde do Escolar) e utilizaremos conceitos estatÃsticos para aprofundar nosso entendimento sobre a saúde de jovens e adolescentes, criando e validando hipóteses com testes estatÃsticos. Para auxiliar nesta jornada nossa principal ferramenta será o Statsmodels, biblioteca Python para análise estatÃstica. -
Módulo 04: Análise de séries temporais
Neste módulo vamos descobrir o que são séries temporais e estudar suas particularidades. Todo arcabouço teórico adquirido até aqui será aplicado para o entendimento das nuances envolvendo as séries temporais. Da estatÃstica descritiva, passando pela análise exploratória e chegando à s previsões, sempre de forma aplicada e prática utilizando ferramentas especÃficas para esse tipo de dados, como o StatisModel e Prophet desenvolvido pelo Facebook. -
Módulo 05: Tratamento, análise e Machine Learning aplicado
Este módulo dará inÃcio ao desenvolvimento de um projeto prático que passará por todo o workflow em Data Science, do entendimento do problema, tratamento e análise dos dados até a proposta de solução utilizando Machine Learning. Vamos trabalhar com dados da COVID-19 do hospital SÃrio Libanês, focando este módulo no tratamento e análise de dados para entender profundamente o problema que estamos lidando e propor possÃveis soluções. -
Módulo 06: Modelos, métricas e validações em Machine Learning
No último módulo aplicamos todo nosso conhecimento para analisar dados da COVID-19, entender alguns dos desafios dos hospitais em época de pandemia e propor soluções a partir das análises de dados. Nossa proposta de solução foi utilizar modelos de Machine Learning, mas para tornar isso possÃvel precisamos aprofundar nossos conhecimentos nesta área, testando modelos mais avançados, utilizando métricas adequadas ao problema e validando de forma correta. Neste módulo vamos trabalhar todas estas frentes para tornar nossa solução uma proposta viável.
As análises são desenvolvidas na linguagem Python com o auxÃlio de suas bibliotecas, no Google Colaboratory, conforme sugerido no Bootcamp.