A plataforma de ensino Alura organizou mais um evento de imersão de Dados. Promovendo e difundindo os conhecimentos relacionados a área de Ciência de Dados (Data Science), com aulas práticas e conteúdos online, gratuitos e inéditos.
Nesta imersão foi realizado um trabalho exploratório de análise de uma base de dados da área de farmacologia.
As aulas foram organizadas da seguinte forma:
- 03/05 Aula 01: Análise de dados, python, pandas e genética
- 04/05 Aula 02: Estatísticas, visualização de dados e distribuições
- 05/05 Aula 03: Correlações, causalidade e relações entre genes.
- 06/05 Aula 04: Merge de dados e análise de resultados.
- 07/05 Aula 05: Machine Learning, Sci-kit Learning e desafios envolvidos.
Esse projeto foi inspirado em um desafio do Laboratory innovation science at Harvard (LINCS) disponibilizando os dados em uma competição no kaggle. O objetivo do LINCS era alavancar o crowdsourcing para promover o desenvolvimento de medicamentos por meio de melhorias nos algoritmos de previsão dos mecanismos de ação (MoA - Mechanism of Action). Pois os processos habituais de identificar o melhor MoA são demorados e caros [(LINCS, 2020)] (https://lish.harvard.edu/mechanisms-action-moa-prediction-contest).
No desafio os participantes tiveram acesso a um conjunto de dados que combina: compostos, expressão gênica, dados de viabilidade celular e anotações do MoA (kaggle).
Os objetivo do projeto desenvolvido neste notebook:
- explorar dados do ramo de Drug Discovery;
- descobrir fatores importantes para a obtenção de insights;
- aprender a utilizar as bibliotecas do python para:
- analisar, selecionar e tratar dados;
- analisar, plotar e estilizar os gráficos (linhas, colunas, boxplot, histograma etc),
- desenvolver modelos de aprendizado de máquina (Machine Learning);
No passado, os cientistas obtinham drogas de produtos naturais ou eram inspirados por remédios tradicionais. Hoje, com o advento de tecnologias mais poderosas, a descoberta de medicamentos mudou para um modelo mais direcionado baseado na compreensão do mecanismo biológico [Kaagle].
As abordagens de aprendizado de máquina (ML), nesta área, têm se mostrado bem interessantes, uma vez que podem ser aplicadas em várias etapas da metodologia para descoberta de drogas (Drug Discovery), como previsão da estruturas, previsão de atividades biológicas, descoberta ou otimização de modelos que predizem o perfil farmacocinético e toxicológico dos compostos [Expert Opinion on Drug Discovery].
Segundo Karthikeyan e Vyans (2014), As técnicas deaprendizado de máquina (ML - Machine Learning) que são mais adequadas para a análise de drogas (fármacos):
- Redes Neurais Artificiais ( ANN - Artificial Neural Networks);
- Modelo Oculto de Markov (HMM - Hidden Markov Models); -Máquina de Vetores de Suporte (SVM - support vector machine);
- Aprendizagem por Árvore de Ddecisão (DTL - Decision Tree Learning);
- Aprendizagem por Floresta Aleatória (RDF - Random Decision Forest);
- Algoritmo de Naive Bayes
- redes de crenças (DBN - Deep Belief Networks) casos de sucesso foram relatados na literatura, demonstrando a eficiência das técnicas de ML combinadas com abordagens tradicionais para estudar problemas de química medicinal [Expert Opinion on Drug Discovery].