/imersao-dados-desafio-final

Desafio Final da Imersão Dados 3 da Alura

Primary LanguageJupyter Notebook

colab sklearn plotly pandas matplotlib numpy ipywidgets

Modelando Mecanismos de Ação de Compostos

Modelando Mecanismos de Ação de Compostos

Desafio Final Imersão Dados 3 💻 Alura 💜

Introdução 📖

      Este trabalho demonstra os resultados da análise de um conjunto de dados de Drug discovery, tema da 3ª Imersão de Dados da Alura. O conjunto de dados integra o desafio Mechanisms of Action (MoA) Prediction, proposto no kaggle como parte do projeto ConnectivityMap, onde é proposta à comunidade a busca por correlações relevantes que ajudem na previsão do comportamento dos mecanismos de ação para a classificação de drogas.
 

O Projeto 📚

Objetivo

      Elaborar um modelo que, selecionado uma proteína alvo presente no conjunto de dados, possa responder com uma lista de expressões gênicas (de g-0 a g-771) e/ou expressões dos tipos de células (de c-0 a c-99) que desperte diferentes mecanismos de ação sobre a proteína em questão.

Hipóteses

      A ideia por trás do projeto era encontrar grupos dos conjuntos de dados com uma alta correlação, para assim modelar a inferência de um grupo dado o outro.
 

DataFrame

      Realizando diversos testes, surgiram evidências fortes que certos indicadores de expressões gênicas e de tipos de células aparentemente apresentavam alta correlação uns com os outros (proporcional ou inversamente proporcional), como até mesmo os professores mostraram nas aulas.
 
      Partindo desta hipótese, elaborei com o apoio da biblioteca scikit-learn um modelo baseado em Redes Neurais que previsse resposta de certas expressões a partir de outras. Contudo, mesmo usando ferramentas para melhorar a performance do modelo com a busca de hiperparâmetros mais adequados ao problema, a acurácia não foi satisfatória, ficando na casa dos 60% no conjunto de teste, com resultados muito sensíveis a overfitting.
 
      Em seguida, explorei os dados relacionados aos mecanismos de ação dos compostos em proteínas alvo, do conjunto de dados de resultados. Por se tratarem de valores inteiros, pude modelar um classificador com a ferramenta de Árvore de Decisão.
 

Estrutura

Árvore

      O modelo é treinado para cada uma das proteínas alvo, usando como classes para o classificados os diferentes mecanismos de ação envolvidos. O algoritmo treina três modelos simultaneamente: o primeiro usa como entrada apenas as expressões gênicas; já segundo modelo é treinado com as expressões dos tipos de células; e, por fim, o último modelo é treinado com os dois tipos de expressões do conjunto de dados.
 
      Para esta modelagem tratei os dados do conjunto de resultados dos experimentos, de forma a alocar os mecanismos de ações em uma única coluna para cada id registrado, conforme abaixo.
 

Reações

      Os modelos elaborados dessa forma obtiveram uma altíssima acurácia, tanto na fase de treinamento quanto na de teste, com resultados de acurácia raramente abaixo de 95%.
 

Árvore

      Para concluir o projeto, exibo um DataFrame que mostra os compostos envolvidos nos mecanismos de ação registrados. Assim, espero, ajudando a enteder o caminho entre o mecanismo de ação dos compostos, as alterações nas expressões gênicas e em diferentes tipos de células, e a relação destes mecanismos de ação com outros compostos do conjunto de dados.
 

Tabela

Conclusão

      Com os resultados apresentados, concluo que:
  1. A modelagem dos dados com Árvore de Decisão é promissora para a classificação dos mecanismos de ação dos compostos em proteínas, apresentando uma acurácia próxima à 100%.
  2. Tanto os indicadores das expressões gênicas, quanto as expressões dos tipos de células são excelentes parâmetros para a classificação e previsão dos mecanismos de ação em proteínas.
  3. Para trabalhos futuros, sugiro o uso de maior poder computacional para explorar hiperparâmetros do modelo de Árvore de Decisão, para assim minimizar os indicadores de expressão necessários para a classificação correta do conjunto de dados.
      Fico extremamente grato por todo o material disponibilizado e pela atenção dos professores na elaboração da imersão. 💜