/Proteina_Desfuncional

Protótipo usando Machine Learning para classificar uma sequência de nucleotídeos como sendo uma proteína funcional ou desfuncional.

Primary LanguagePython

#MACHINE LEARNING PARA IDENTIFICAR SE UMA PROTEINA SERÁ FUNCIONAL OU DESFUNCIONAL À PARTIR DE UMA SEQUENCIA DE NUCLEOTÍDEOS

Criamos um Protótipo para demonstrar a utilidade do Machine Learning para estudos preditivos na genética. O exemplo apresentado não está relacionado com a realidade aplicável à genética, porém, é o primeiro passo para começar a resolver problemas utilizando a bioinformática e análise de dados.

O QUE UTILIZAREMOS PARA A PREDIÇÃO DAS SEQUÊNCIAS DE NUCLEOTÍDEOS?

  • Arquivo 'gene.csv' contendo 20 exemplos de sequencias:

    • Arquivo destinado ao banco de dados para treino e teste;
    • Sêquencias separadas em 3 Códons;
    • A última coluna representa se a sequência dos 3 códons são funcionais ou desfuncionais;
    • As linhas são separadas entre 10 exemplos funcionais e 10 exemplos desfuncionais;
    • 80% desses dados serão usados para treinamento do modelo;
    • 20% desses dados serão usados para teste do modelo;
  • Arquivo 'novosgenes.csv' contendo 3 novas sequencias aleatórias:

    • Arquivo destinado para as situações novas a serem aplicadas o modelo de aprendizado;
    • A coluna final estará vazia pois ainda não sabemos se a proteína é funcional ou desfuncional;
  • Código 'proteinadesfunciona.py':

    • Responsável por importar e manipular os arquivos .csv;

    • Cria, treina e testa o modelo utilizando-se do arquvio 'gene.csv' (80% dos dados para treino e 20% para teste)

    • Abre o arquivo 'novosgenes.csv' e usa o modelo criado anteriormente para fazer novas predições

    • github.com/bioramonmoratori