/data-science-bootcamp

Arquivos e notebooks das aulas e desafios do Bootcamp Data Science Aplicada da Alura

Primary LanguageJupyter NotebookMIT LicenseMIT

Bootcamp Data Science Aplicada

Olá! 👋

Aqui neste repositório você irá encontrar, separados por módulos, os notebooks e arquivos utilizados e produzidos durante o Bootcamp Data Science Aplicada da Alura, a maior plataforma brasileira de cursos de tecnologia.

Mas o que é o Bootcamp Data Science Aplicada?

Um curso prático de 12 semanas com projetos e conteúdo relevantes à área de Data Science dividido nos seguintes módulos:

  • Módulo 01: Python e Pandas para Análise de Dados Reais;
  • Módulo 02: Visualização de Dados com Seaborn e Matplotlib;
  • Módulo 03: Análise de Séries Temporais;
  • Módulo 04: Tratamento, Análise e Machine Learning Aplicado;
  • Módulo 05: Modelos, Métricas e Validações em Machine Learning;
  • Módulo 06: Módulo Extra de Data Science Aplicada à Finanças.

Como este repositório foi organizado?

Para os arquivos de acompanhamento das aulas e desafios foram utilizados majoritariamente o Jupyter Notebook e o Jupyter Lab.

Para cada módulo existe uma pasta que contém seus arquivos, ou seja, para o Módulo 01 temos a pasta modulo1. Dentro de cada pasta pode ser encontrado um ou mais arquivos no formato .ipynb. Esses são os notebooks com os códigos de acompanhamento de cada aula e a resolução dos desafios propostos. Caso necessário, outros arquivos também serão disponibilizados em cada pasta.

Além disso, existe uma pasta data que guarda os datasets utilizados ao longo de todo o bootcamp.

Com isso em mente, vejamos cada módulo em mais detalhe.

Módulo 01: Python e Pandas para Análise de Dados Reais

Neste módulo vamos aprender como utilizar Python, Pandas e Matplotlib para explorar os dados financeiros do SUS, mais precisamente os gastos por Unidade Federativa ao longo dos anos. Os desafios se iniciam na aquisição dos dados em uma plataforma do governo e seus possíveis problemas, passando pelo leitura destes dados com o Pandas até a criação de hipóteses na área da saúde, que sempre devem ser cuidadosas, simulando os desafios diários de uma pessoa cientista de dados.

Data de Início: 18/05/2021

Status: Completo 🟢

Aula Título
01 Aquisição e Leitura de Dados Reais
02 Primeiras Visualizações de Dados
03 Manipulação de Dados
04 Análise de Gráficos e Criação de Hipóteses
05 Manipulação e Interpretação de Gráficos

Notebook: Desafios Módulo 01

Projeto Módulo 01: Sistema Único de Saúde (SUS) - Uma Análise de Dados de Internações

Data de Envio: 30/05/2021

Módulo 02: Visualização de Dados com Seaborn e Matplotlib

Neste módulo seguiremos nas análises dos dados financeiros do SUS. Vamos mais fundo no tratamento e manipulação dos dados para análises mais complexas, utilizando recursos mais avançados do Pandas e da Linguagem Python como um todo.

Fontes de dados externas serão utilizadas para enriquecer a análise exploratória e realizar comparações mais precisas entre os diferentes estados. Além disso, discutiremos mais sobre boas práticas de visualização, interpretação de gráficos e sua construção com o Seaborn.

Data de Início: 31/05/2021

Status: Completo 🟢

Aula Título
01 Fontes Externas, Limpeza e Manipulação de Dados
02 Proporcionalidades e Seaborn
03 Ticks, Escalas e Formatação de Imagens
04 Trabalhando com DateTime e Melt
05 Manipulando Datas e Gerando Novas Análises
06 Agrupando Dados e Analisando por Categoria

Notebook: Desafios Módulo 02

Projeto Módulo 02: Vacinação no Brasil: O que Aprendemos com o Surto de Sarampo em 2014

Data de Envio: 13/06/2021

Módulo 03: Análise e Previsão de Séries Temporais

Este módulo tem foco na análise e previsões de séries temporais. Vamos aplicar todo conhecimento adquirido para trabalhar com esse tipo de dados cheio de particularidades, além de estudar ferramentas específicas, como Prophet, desenvolvida pelo Facebook.

Data de Início: 14/06/2021

Status: Completo 🟢

Aula Título
01 Entendendo a Série Temporal
02 Primeiras Previsões
03 Mudança de Tendência
04 Feriados e Sazonalidade
05 Outliers e Validação

Notebook: Desafios Módulo 03

Projeto Módulo 03: Séries Temporais - Covid-19

Data de Envio: 04/07/2021

Módulo 04: Tratamento, Análise e Machine Learning Aplicado

Estamos chegando na reta final, e este módulo dará início ao desenvolvimento de um projeto prático que passará por todo o workflow em Data Science, do entendimento do problema, tratamento e análise dos dados até a proposta de solução utilizando Machine Learning. Vamos trabalhar com dados da COVID-19 do hospital Sírio Libanês, focando este módulo no tratamento e análise de dados para entender profundamente o problema que estamos lidando e propor possíveis soluções.

Data de Início: 05/07/2021

Status: Completo 🟢

Aula Título
01 Machine Learning e Saúde
02 Desenvolvimento no Kaggle
03 Modelos de Machine Learning
04 Métricas e Avaliações
05 Compreendendo o Problema Real

Notebook: Desafios Módulo 04

Projeto Módulo 04: ---

Data de Envio: ---

Módulo 05: Modelos, Métricas e Validações em Machine Learning

No último módulo aplicamos todo nosso conhecimento para analisar dados da COVID-19, entender alguns dos desafios dos hospitais em época de pandemia e propor soluções a partir das análises de dados. Nossa proposta de solução foi utilizar modelos de Machine Learning, mas para tornar isso possível precisamos aprofundar nossos conhecimentos nesta área, testando modelos mais avançados, utilizando métricas adequadas ao problema e validando de forma correta. Neste módulo vamos trabalhar todas estas frentes para tornar nossa solução uma proposta viável.

Data de Início: 19/07/2021

Status: Completo 🟢

Aula Título
01 Wokflow de Machine Learning
02 Métricas de Avaliaçào
03 Aleatoriedade de Modelos
04 Validação Cruzada
05 Desafios em Machine Learning
06 Finalizando a Validação

Notebook: Desafios Módulo 05

Projeto Módulo 05: Covid-19 ICU Prediction

Data de Envio: 08/08/2021

Módulo 06:

Agora chegou o momento de consolidar seu conhecimento em uma nova área. Vamos sair do assunto saúde e desenvolver um projeto completo de Data Science aplicado a finanças. Será mais um projeto incrível para complementar seu portfólio e principalmente para te ensinar assuntos específicos desta área tão relevante.

Data de Início: 11/08/2021

Status: Completo 🟢

Aula Título
01 Contextualização do Mercado Financeiro
02 Analisando a Base de Cadastro de Clientes
03 Definindo a Classificação de Clientes
04 Machine Learning
05 Criando a Aplicação (em Streamlit)

Notebook: Desafios Módulo 06

Projeto Módulo 06: Credit Scoring in Streamlit


Dúvidas, dicas e sugestões são sempre bem-vindas!