/imersao-dados-desafio-final

Esta é a versão de Felipe Silva, do Projeto Final, da 3ª edição da Imersão Dados.

Primary LanguageJupyter Notebook

Projeto Final da Imersão Dados

Objetivo do projeto

O estudo se baseia em encontrar um modelo de Machine Learning capaz de classificar uma série de informações genéticas, celulares, tipos de tratamentos, diferentes doses e diferentes tempos de exposição, para determinar se Mecanismos de Ação (MOA) são ativos em determinadas configurações, partindo de informações obtidas a partir de experimentos.

Foram realizados 23814 experimentos, assim obtendo 23814 resultados, para realização do estudo. Foram levados em consideração 876 variáveis nos experimentos como (tempo, dose, composto, genes, células), e os resultados levam em consideração 206 MOAs com ativações possíveis.

O objetivo do estudo é levantar hipóteses sobre um modelo que melhor se adapte as informações dos experimentos e seus resultados.

Análises

Dados dos Experimentos

Analisando os compostos podemos observar a seguir os 5 compostos que mais aparecem em nossos estudos. O com a maior presença é o cacb2b860 utilizado nos experimentos onde o tratamento é com controle.

Cinco compostos mais comuns

Como seria o esperado, os experimentos com controle, não tem Mecanismos de Ações ativos (moa), como podemos ver no gráfico de barras a seguir:

Cinco compostos mais comuns e suas contagens de MOAs

Dados dos Resultados

Observando os Mecanismos de Ativação, podemos verificar que o mais comum que pode ser ativo possui efeito inibidores, como podemos ver no gráfico a seguir:

Mecanismos de Ação (contagem)

MOAs com efeitos antagonistas e agonitas vem logo em seguida, com os ativadores logo após. Com esses resultados, podemos observar que a inibição é algo muito comum de ser ativada neste estudo.

Treinamento dos modelos

Os dois modelos que deram os melhores resultados foram o Random Forest Classifier e o Support Vector Machine, ambos com pontuações bem próximas. Mas ambos tiveram valores bem baixos. Os valores para Random Forest Classifier e Support Vector Machine, respectivamente, foram de 65.4% e 65.9%

A maneira encontrada para que a acurácia fosse aumentada, foi fazer estudos com menos compostos. Trabalhando com os 5 compostos mais comuns o Random Forest Classifier conseguiu atingir valores de acurácia de 99.8%, com zero casos de falsos negativos. Com os 10 compostos mais comuns, conseguiu encontrar valores de 99.37%, com zero casos de falso negativos.

Conforme mais compostos são usados, menor a acurácia do modelo, e maior o número de falsos negativos, mas existe um detalhe importante a ser considerado. Enquanto os 9 primeiros compostos mais comuns nos experimentos possuem valores entre 1866 e 178, a partir do décimo composto, os valores caem drasticamente, indo para valores entre 19 e 1, como pode-se observar nos gráficos abaixo, a queda nos valores de amostras entre os compostos mais comuns:

Dez compostos mais comuns

Compostos mais comuns do 10 ao 19

Dessa forma, vale a pena consultar um biólogo especializado na área, para que possa ter um feedback sobre a importância de se usar todos os compostos na hora de treinar o modelo. Como alguns tem poucos dados, isso pode estar atrapalhando o aprendizado dos modelos. Se for possível estar trabalhando com os 10 mais comuns, o modelo estará tendo uma ótima performance.

Conclusão

Levando em consideração os resultados encontrados usando todos os dados de todos os compostos, pode-se observar que o modelo não consegue uma performance tão impressionante.

Quando refazemos o treinamento do modelo, usando apenas os dados dos compostos mais comuns, o modelo consegue uma performance muito melhor e os melhores resultados foram encontrados com o Random Forest Classifier. O modelos conseguiu valores de acurácia bem altos e com números de falsos negativos bem baixos.

Contudo, vale a pena ter em mente que, excluindo dados dos componentes que tiveram poucos experimentos realizados, possa estar ocorrendo um overfit do modelo. Vale a pena uma consulta com um especialista da área para saber quais os pros e os contras dessa abordagem dentro da área estudada.

Fim