aprendizado-de-maquina: A Jupyter Notebook repository from hosoiki

Aprendizado de Máquina

Tema: Análise da expressão gênica da derme

Membros e respectivos líderes de cada bloco

Artur Hosoi Kimura - 220048 - Bloco 2
Débora van Putten Chaves - 220037 - Bloco 3
Pedro Henrique Machado Zanineli - 220068 - Bloco 4
Vitor Eduardo Girotto Barelli - 220072 - Bloco 1

Como forma de desenvolvimento da disciplina de Aprendizado de Máquina do segundo semestre do curso da Ilum Escola de Ciência, o projeto pretende identificar a idade e sexo de um determinado indivíduo ao analisar um conjunto de dados relacionados à expressão gênica na pele não exposta ao sol, retirados do BioBanco de dados "Portal GTEX".

Informações importantes do projeto

O projeto será desenvolvido considerando:

Features expressas em TPM (transcrito por milhão) dos genes mais expressivos na pele segundi a literatura;
Faixa etária como target, com subdivisões em faixas que exploram idades entre 20 aos 79 anos;
Sexo como target, podendo ser classificado como masculino ou feminino.

Sumário do repositório

Geral

Diário de bordo.ipynb: são as anotações do líder do bloco (discussões, ações e a realização de tarefas)
'raw_data.zip': contém todos os nossos dados já tratados.

Bloco 1

B1 - Coleta dos dados.ipynb: nesse caderno foram feitas coletas e tratamento de dois tipos de dados, produzindo um dataframe.
B1 - Preparação e Análise dos dados.ipynb: nesse caderno houve uma discussão sobre o projeto em geral e a definição, classificação e preparação dos dados e features para serem analisadas.
B1 - Dados.csv: Nesse arquivo Excel temos os dados retirados do GTX que serão utilizados para produzir os data.set
B1 - material-de-estudo.md: reúne em um arquivo só os genes que encontramos destacados na literatura e os links para os artigos que continham tais informações.

Bloco 2

B2 - Aplicação dos métodos com conversão randômica de idade.ipynb: Baseline, K-NN, Regressão Linear, Árvore de Decisão e Floresta Aleatória, por idades aleatórias.
B2 - Aplicação dos métodos.ipynb: Baseline, K-NN, Regressão Linear, Árvore de Decisão e Floresta Aleatória, por faixa de idade.

OBS: Nesse bloco houve a separação do dataframe em 2;

'data.csv': pegamos todos os nossos genes e, a partir deles, somamos as suas expressões. Depois disso, analisamos quais deles eram mais expressivos (quais tinham as maiores somas) e selecionamos os 20 (vinte) que apresentaram maiores resultados.
'data_artigo.csv': os genes aqui escolhidos são os que foram obtidos da literatura científica. Os links para os artigos que suportam essas escolhas estão dispostos no arquivo 'material-de-estudo.md'.

Bloco 3

B3 - Agrupamento (clustering).ipynb
B3 - Detecção de valores anômalos.ipynb
B3 - PCA.ipynb

Bloco 4

B4 - Validação cruzada.ipynb

hosoiki/aprendizado-de-maquina

Aprendizado de Máquina

Tema: Análise da expressão gênica da derme

Sumário do repositório