Projeto foi inspirado em um desafio do Laboratory innovation science at Harvard disponibilizando os dados em uma competição no kaggle.
Imersão dos dias 03/05/2021 até 07/05/2021.
Instrutores: Thiago G. Santos, Vanessa Leiko e Guilherme Silveira
-
Aula 1 / Desafios : Análise de dados, python, pandas e novos fármacos | Conhecendo os dados e as ferramentas
Desafios Aula 1
- 01: Investigar por que a classe tratamento é tão desbalanceada?
- 02: Plotar as 5 últimas linhas da tabela
- 03: Proporção das classes tratamento.
- 04: Quantas tipos de drogas foram investigados.
- 05: Procurar na documentação o método query(pandas).
- 06: Renomear as colunas tirando o hífen.
- 07: Deixar os gráficos bonitões. (Matplotlib.pyplot)
- 08: Resumir o que você aprendeu com os dados
-
Aula 2 / Desafios: Estatísticas, visualização de dados e distribuições
Desafios Aula 2
- 01: Ordenar o gráfico countplot
- 02: Melhorar a visualização alterando tamanho da fonte...
- 03: Plotar os histogramas com seaborn
- 04: Estudar sobre as estatíticas retornadas no .describe()
- 05: Refletir sobre a manipulação do tamanho das visualizações.
- 06: Fazer outras análises com o boxplot e até com o histograma.
- 07: Resumo do que você aprendeu com os dados
-
Aula 3 / Desafios: Estatísticas, visualização de dados e distribuições
Desafios Aula 3
- 01: Criar tabelas de frequência com pandas.groupby()
- 02: Normalizar o crosstab pela coluna.
- 03: Explorar outros agregadores.
- 04: Explorar o melt.
- 05: Calcular e analisar a correlação entre G e C. Refletir sobre os efeitos biológicos.
- 06: Estudar o código que plota a matriz de correlação (heatmap)
- 07: Resumo do que você aprendeu com os dados
-
Aula 4 / Desafios: Merge e Análise de Resultados
Desafios Aula 4
- 01: Encontrar o top 10, das ações do MOA (inibidor, agonista...)
- 02: Criar a coluna eh_controle para quando na linha tratamento == com_controle
- 03: Criar três colunas para indicar o tempo 24, 48, 72
- 04: Estudar sobre combinações de DF https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
- 05: Fazer análise mais detalhada considerando tempo e dose, para comparar as distribuições (Escolher uma droga e comparar com controle)
- 06: Descobrir se tem algum composto que dependendo da configuração do experimento, ativa ou não ativa algum MOA
- 07: Descobrir se tem algum composto que dependendo da configuração do experimento, ativa MOAs diferentes
- 08: Resumo do que você aprendeu com os dados
-
Aula 5 / Desafios: Machine Learning e Sci-kit Learning
Desafios Aula 5
- 01: Tente outros modelos ou mude os parâmetros dos modelos que testamos em aula.
- 02: Estude a documentação do Sklearn.
- 03: Pesquisar o fluxograma 'Escolhendo o melhor modelo' choosing the right estimator
- 04: Teste outras problemas (perguntas). 0, 1 ou +.
- 05: Escolha a droga mais utilizada e tente criar um modelo para prever está label.
- 06: Resumo do que você aprendeu com os dados
Cada Aula é composta por um jupiter notebook (no colab) com os ensinamentos da aula, alguns desafios e um resumo do que foi aprendido.