/ImersaoDadosAlura

Projeto de data science para imersão dados da Alura. #imersaodados #alura

Primary LanguageJupyter Notebook

Imersão Dados Alura

Projeto foi inspirado em um desafio do Laboratory innovation science at Harvard disponibilizando os dados em uma competição no kaggle.

Imersão dos dias 03/05/2021 até 07/05/2021.

Instrutores: Thiago G. Santos, Vanessa Leiko e Guilherme Silveira

Aulas

  • Aula 1 / Desafios : Análise de dados, python, pandas e novos fármacos | Conhecendo os dados e as ferramentas

    Desafios Aula 1

    Notebook de Desafios

    • 01: Investigar por que a classe tratamento é tão desbalanceada?
    • 02: Plotar as 5 últimas linhas da tabela
    • 03: Proporção das classes tratamento.
    • 04: Quantas tipos de drogas foram investigados.
    • 05: Procurar na documentação o método query(pandas).
    • 06: Renomear as colunas tirando o hífen.
    • 07: Deixar os gráficos bonitões. (Matplotlib.pyplot)
    • 08: Resumir o que você aprendeu com os dados
  • Aula 2 / Desafios: Estatísticas, visualização de dados e distribuições

    Desafios Aula 2

    Notebook de Desafios

    • 01: Ordenar o gráfico countplot
    • 02: Melhorar a visualização alterando tamanho da fonte...
    • 03: Plotar os histogramas com seaborn
    • 04: Estudar sobre as estatíticas retornadas no .describe()
    • 05: Refletir sobre a manipulação do tamanho das visualizações.
    • 06: Fazer outras análises com o boxplot e até com o histograma.
    • 07: Resumo do que você aprendeu com os dados
  • Aula 3 / Desafios: Estatísticas, visualização de dados e distribuições

    Desafios Aula 3

    Notebook de Desafios

    • 01: Criar tabelas de frequência com pandas.groupby()
    • 02: Normalizar o crosstab pela coluna.
    • 03: Explorar outros agregadores.
    • 04: Explorar o melt.
    • 05: Calcular e analisar a correlação entre G e C. Refletir sobre os efeitos biológicos.
    • 06: Estudar o código que plota a matriz de correlação (heatmap)
    • 07: Resumo do que você aprendeu com os dados
  • Aula 4 / Desafios: Merge e Análise de Resultados

    Desafios Aula 4

    Notebook de Desafios

    • 01: Encontrar o top 10, das ações do MOA (inibidor, agonista...)
    • 02: Criar a coluna eh_controle para quando na linha tratamento == com_controle
    • 03: Criar três colunas para indicar o tempo 24, 48, 72
    • 04: Estudar sobre combinações de DF https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
    • 05: Fazer análise mais detalhada considerando tempo e dose, para comparar as distribuições (Escolher uma droga e comparar com controle)
    • 06: Descobrir se tem algum composto que dependendo da configuração do experimento, ativa ou não ativa algum MOA
    • 07: Descobrir se tem algum composto que dependendo da configuração do experimento, ativa MOAs diferentes
    • 08: Resumo do que você aprendeu com os dados
  • Aula 5 / Desafios: Machine Learning e Sci-kit Learning

    Desafios Aula 5

    Notebook de Desafios

    • 01: Tente outros modelos ou mude os parâmetros dos modelos que testamos em aula.
    • 02: Estude a documentação do Sklearn.
    • 03: Pesquisar o fluxograma 'Escolhendo o melhor modelo' choosing the right estimator
    • 04: Teste outras problemas (perguntas). 0, 1 ou +.
    • 05: Escolha a droga mais utilizada e tente criar um modelo para prever está label.
    • 06: Resumo do que você aprendeu com os dados

Cada Aula é composta por um jupiter notebook (no colab) com os ensinamentos da aula, alguns desafios e um resumo do que foi aprendido.