/scripts_prep_bi

Scripts e arquivos para preparação de dados do projeto de BI

Primary LanguagePython

1. Preparação dos dados:

Recebido o arquivo Docking_ETH_TCL.csv contendo um CSV com a simulação do processo de docagem. Primeiramente foi necessário remover as linhas em branco utilizando o 'sed'. Todo pré-processamento para execução do script foi construído em bash. Abaixo a rotina utilizada para remoção dos espaços em branco:

$ sed -i 's/ //g' Docking_ETH_TCL.csv

Após a remoção dos espaços em branco, o arquivo que estava com aproximadamente 550MB passou para aproximadamente 250MB. Como input para o script foi necessário criar dois arquivos contendo os ligantes e os residuos. Para esta criação dos arquivos de residuos e ligantes respectivamente, foram utilizados os seguintes comandos:

$ head -n1 Docking_ETH_TCL.csv | sed 's/,/\n/g' | grep -v ^TCL |grep -v ^ETH |cut -d "_" -f1,2,3 |uniq -d  > residuos.txt
$ head -n1 Docking_ETH_TCL.csv | sed 's/,/\n/g' | grep -E 'TCL|ETH' |grep -v ETHBEST |grep -v TCLBEST |cut -d "_" -f1,2 |uniq -d > ligantes.txt

Após ajuste do arquivo principal com a remoção dos espaços em branco e criação dos arquivos de residuos e ligantes, a execução do script pode prosseguir. A execução deve seguir a seguinte sintaxe:

calculaDistancia.py <Lista de residuos> <Lista de ligantes> <Arquivo CSV com as informacoes>

O resultado é direcionado em STDOUT e pode ser salvo em um outro arquivo simplesmente com o redirecionamento padrão do bash '>'. Desta forma a execução pode ser feita da seguinte maneira:

$ ./calculaDistancia.py residuos.txt ligantes.txt Docking_ETH_TCL.csv > resultado.csv

O arquivo resultado.csv é um CSV formado com todas as distâncias inferiores a 4 angstrom.


2 - No dia 15/05/2014 o Professor solicitou que o arquivo principal (Docking_ETH_TCL.csv) fosse separado em dois:

- Um contendo apenas o snapshot, os residuos NAH (NaD) e o ligante TCL.
- Outro contendo a mesma coisa que o orignial, exceto o resudo NAH (NaD)

Desta forma foi criado o script ajustaColunasDockingETH_TCL.py que faz o filtro de colunas.

Os comandos usados para execução foram os seguintes:

1- ./ajustaColunasDockingETH_TCL.py -m SS,NAH_269_C6N_x,NAH_269_C6N_y,NAH_269_C6N_z,NAH_269_H6N_x,NAH_269_H6N_y,NAH_269_H6N_z,NAH_269_C5N_x,NAH_269_C5N_y,NAH_269_C5N_z,NAH_269_H5N_x,NAH_269_H5N_y,NAH_269_H5N_z,NAH_269_C4N_x,NAH_269_C4N_y,NAH_269_C4N_z,NAH_269_H41_x,NAH_269_H41_y,NAH_269_H41_z,NAH_269_H42_x,NAH_269_H42_y,NAH_269_H42_z,NAH_269_C3N_x,NAH_269_C3N_y,NAH_269_C3N_z,NAH_269_C7N_x,NAH_269_C7N_y,NAH_269_C7N_z,NAH_269_O7N_x,NAH_269_O7N_y,NAH_269_O7N_z,NAH_269_N7N_x,NAH_269_N7N_y,NAH_269_N7N_z,NAH_269_H71_x,NAH_269_H71_y,NAH_269_H71_z,NAH_269_H72_x,NAH_269_H72_y,NAH_269_H72_z,NAH_269_C2N_x,NAH_269_C2N_y,NAH_269_C2N_z,NAH_269_H2N_x,NAH_269_H2N_y,NAH_269_H2N_z,NAH_269_N1N_x,NAH_269_N1N_y,NAH_269_N1N_z,NAH_269_1CN_x,NAH_269_1CN_y,NAH_269_1CN_z,NAH_269_1HN_x,NAH_269_1HN_y,NAH_269_1HN_z,NAH_269_2CN_x,NAH_269_2CN_y,NAH_269_2CN_z,NAH_269_2HN_x,NAH_269_2HN_y,NAH_269_2HN_z,NAH_269_2ON_x,NAH_269_2ON_y,NAH_269_2ON_z,NAH_269_HON2_x,NAH_269_HON2_y,NAH_269_HON2_z,NAH_269_3CN_x,NAH_269_3CN_y,NAH_269_3CN_z,NAH_269_3HN_x,NAH_269_3HN_y,NAH_269_3HN_z,NAH_269_3ON_x,NAH_269_3ON_y,NAH_269_3ON_z,NAH_269_HON3_x,NAH_269_HON3_y,NAH_269_HON3_z,NAH_269_4CN_x,NAH_269_4CN_y,NAH_269_4CN_z,NAH_269_4HN_x,NAH_269_4HN_y,NAH_269_4HN_z,NAH_269_4ON_x,NAH_269_4ON_y,NAH_269_4ON_z,NAH_269_5CN_x,NAH_269_5CN_y,NAH_269_5CN_z,NAH_269_HN51_x,NAH_269_HN51_y,NAH_269_HN51_z,NAH_269_HN52_x,NAH_269_HN52_y,NAH_269_HN52_z,NAH_269_5ON_x,NAH_269_5ON_y,NAH_269_5ON_z,NAH_269_PN_x,NAH_269_PN_y,NAH_269_PN_z,NAH_269_OPN1_x,NAH_269_OPN1_y,NAH_269_OPN1_z,NAH_269_OPN2_x,NAH_269_OPN2_y,NAH_269_OPN2_z,NAH_269_O3P_x,NAH_269_O3P_y,NAH_269_O3P_z,NAH_269_PA_x,NAH_269_PA_y,NAH_269_PA_z,NAH_269_OPA1_x,NAH_269_OPA1_y,NAH_269_OPA1_z,NAH_269_OPA2_x,NAH_269_OPA2_y,NAH_269_OPA2_z,NAH_269_5OA_x,NAH_269_5OA_y,NAH_269_5OA_z,NAH_269_5CA_x,NAH_269_5CA_y,NAH_269_5CA_z,NAH_269_HA51_x,NAH_269_HA51_y,NAH_269_HA51_z,NAH_269_HA52_x,NAH_269_HA52_y,NAH_269_HA52_z,NAH_269_4CA_x,NAH_269_4CA_y,NAH_269_4CA_z,NAH_269_4HA_x,NAH_269_4HA_y,NAH_269_4HA_z,NAH_269_4OA_x,NAH_269_4OA_y,NAH_269_4OA_z,NAH_269_3CA_x,NAH_269_3CA_y,NAH_269_3CA_z,NAH_269_3HA_x,NAH_269_3HA_y,NAH_269_3HA_z,NAH_269_3OA_x,NAH_269_3OA_y,NAH_269_3OA_z,NAH_269_HOA3_x,NAH_269_HOA3_y,NAH_269_HOA3_z,NAH_269_2CA_x,NAH_269_2CA_y,NAH_269_2CA_z,NAH_269_2HA_x,NAH_269_2HA_y,NAH_269_2HA_z,NAH_269_2OA_x,NAH_269_2OA_y,NAH_269_2OA_z,NAH_269_HOA2_x,NAH_269_HOA2_y,NAH_269_HOA2_z,NAH_269_1CA_x,NAH_269_1CA_y,NAH_269_1CA_z,NAH_269_1HA_x,NAH_269_1HA_y,NAH_269_1HA_z,NAH_269_N9A_x,NAH_269_N9A_y,NAH_269_N9A_z,NAH_269_C8A_x,NAH_269_C8A_y,NAH_269_C8A_z,NAH_269_H8A_x,NAH_269_H8A_y,NAH_269_H8A_z,NAH_269_N7A_x,NAH_269_N7A_y,NAH_269_N7A_z,NAH_269_C5A_x,NAH_269_C5A_y,NAH_269_C5A_z,NAH_269_C6A_x,NAH_269_C6A_y,NAH_269_C6A_z,NAH_269_N6A_x,NAH_269_N6A_y,NAH_269_N6A_z,NAH_269_H61_x,NAH_269_H61_y,NAH_269_H61_z,NAH_269_H62_x,NAH_269_H62_y,NAH_269_H62_z,NAH_269_N1A_x,NAH_269_N1A_y,NAH_269_N1A_z,NAH_269_C2A_x,NAH_269_C2A_y,NAH_269_C2A_z,NAH_269_H2A_x,NAH_269_H2A_y,NAH_269_H2A_z,NAH_269_N3A_x,NAH_269_N3A_y,NAH_269_N3A_z,NAH_269_C4A_x,NAH_269_C4A_y,NAH_269_C4A_z,TCL_A1_x,TCL_A1_y,TCL_A1_z,TCL_A2_x,TCL_A2_y,TCL_A2_z,TCL_A3_x,TCL_A3_y,TCL_A3_z,TCL_A4_x,TCL_A4_y,TCL_A4_z,TCL_A5_x,TCL_A5_y,TCL_A5_z,TCL_A6_x,TCL_A6_y,TCL_A6_z,TCL_c1_x,TCL_c1_y,TCL_c1_z,TCL_O1_x,TCL_O1_y,TCL_O1_z,TCL_H4_x,TCL_H4_y,TCL_H4_z,TCL_O2_x,TCL_O2_y,TCL_O2_z,TCL_A7_x,TCL_A7_y,TCL_A7_z,TCL_A12_x,TCL_A12_y,TCL_A12_z,TCL_c2_x,TCL_c2_y,TCL_c2_z,TCL_A11_x,TCL_A11_y,TCL_A11_z,TCL_A10_x,TCL_A10_y,TCL_A10_z,TCL_c3_x,TCL_c3_y,TCL_c3_z,TCL_A9_x,TCL_A9_y,TCL_A9_z,TCL_A8_x,TCL_A8_y,TCL_A8_z,TCLBESTFEB,TCLBESTRMSD Docking_ETH_TCL.csv

2- ./ajustaColunasDockingETH_TCL.py -e NAH_269_C6N_x,NAH_269_C6N_y,NAH_269_C6N_z,NAH_269_H6N_x,NAH_269_H6N_y,NAH_269_H6N_z,NAH_269_C5N_x,NAH_269_C5N_y,NAH_269_C5N_z,NAH_269_H5N_x,NAH_269_H5N_y,NAH_269_H5N_z,NAH_269_C4N_x,NAH_269_C4N_y,NAH_269_C4N_z,NAH_269_H41_x,NAH_269_H41_y,NAH_269_H41_z,NAH_269_H42_x,NAH_269_H42_y,NAH_269_H42_z,NAH_269_C3N_x,NAH_269_C3N_y,NAH_269_C3N_z,NAH_269_C7N_x,NAH_269_C7N_y,NAH_269_C7N_z,NAH_269_O7N_x,NAH_269_O7N_y,NAH_269_O7N_z,NAH_269_N7N_x,NAH_269_N7N_y,NAH_269_N7N_z,NAH_269_H71_x,NAH_269_H71_y,NAH_269_H71_z,NAH_269_H72_x,NAH_269_H72_y,NAH_269_H72_z,NAH_269_C2N_x,NAH_269_C2N_y,NAH_269_C2N_z,NAH_269_H2N_x,NAH_269_H2N_y,NAH_269_H2N_z,NAH_269_N1N_x,NAH_269_N1N_y,NAH_269_N1N_z,NAH_269_1CN_x,NAH_269_1CN_y,NAH_269_1CN_z,NAH_269_1HN_x,NAH_269_1HN_y,NAH_269_1HN_z,NAH_269_2CN_x,NAH_269_2CN_y,NAH_269_2CN_z,NAH_269_2HN_x,NAH_269_2HN_y,NAH_269_2HN_z,NAH_269_2ON_x,NAH_269_2ON_y,NAH_269_2ON_z,NAH_269_HON2_x,NAH_269_HON2_y,NAH_269_HON2_z,NAH_269_3CN_x,NAH_269_3CN_y,NAH_269_3CN_z,NAH_269_3HN_x,NAH_269_3HN_y,NAH_269_3HN_z,NAH_269_3ON_x,NAH_269_3ON_y,NAH_269_3ON_z,NAH_269_HON3_x,NAH_269_HON3_y,NAH_269_HON3_z,NAH_269_4CN_x,NAH_269_4CN_y,NAH_269_4CN_z,NAH_269_4HN_x,NAH_269_4HN_y,NAH_269_4HN_z,NAH_269_4ON_x,NAH_269_4ON_y,NAH_269_4ON_z,NAH_269_5CN_x,NAH_269_5CN_y,NAH_269_5CN_z,NAH_269_HN51_x,NAH_269_HN51_y,NAH_269_HN51_z,NAH_269_HN52_x,NAH_269_HN52_y,NAH_269_HN52_z,NAH_269_5ON_x,NAH_269_5ON_y,NAH_269_5ON_z,NAH_269_PN_x,NAH_269_PN_y,NAH_269_PN_z,NAH_269_OPN1_x,NAH_269_OPN1_y,NAH_269_OPN1_z,NAH_269_OPN2_x,NAH_269_OPN2_y,NAH_269_OPN2_z,NAH_269_O3P_x,NAH_269_O3P_y,NAH_269_O3P_z,NAH_269_PA_x,NAH_269_PA_y,NAH_269_PA_z,NAH_269_OPA1_x,NAH_269_OPA1_y,NAH_269_OPA1_z,NAH_269_OPA2_x,NAH_269_OPA2_y,NAH_269_OPA2_z,NAH_269_5OA_x,NAH_269_5OA_y,NAH_269_5OA_z,NAH_269_5CA_x,NAH_269_5CA_y,NAH_269_5CA_z,NAH_269_HA51_x,NAH_269_HA51_y,NAH_269_HA51_z,NAH_269_HA52_x,NAH_269_HA52_y,NAH_269_HA52_z,NAH_269_4CA_x,NAH_269_4CA_y,NAH_269_4CA_z,NAH_269_4HA_x,NAH_269_4HA_y,NAH_269_4HA_z,NAH_269_4OA_x,NAH_269_4OA_y,NAH_269_4OA_z,NAH_269_3CA_x,NAH_269_3CA_y,NAH_269_3CA_z,NAH_269_3HA_x,NAH_269_3HA_y,NAH_269_3HA_z,NAH_269_3OA_x,NAH_269_3OA_y,NAH_269_3OA_z,NAH_269_HOA3_x,NAH_269_HOA3_y,NAH_269_HOA3_z,NAH_269_2CA_x,NAH_269_2CA_y,NAH_269_2CA_z,NAH_269_2HA_x,NAH_269_2HA_y,NAH_269_2HA_z,NAH_269_2OA_x,NAH_269_2OA_y,NAH_269_2OA_z,NAH_269_HOA2_x,NAH_269_HOA2_y,NAH_269_HOA2_z,NAH_269_1CA_x,NAH_269_1CA_y,NAH_269_1CA_z,NAH_269_1HA_x,NAH_269_1HA_y,NAH_269_1HA_z,NAH_269_N9A_x,NAH_269_N9A_y,NAH_269_N9A_z,NAH_269_C8A_x,NAH_269_C8A_y,NAH_269_C8A_z,NAH_269_H8A_x,NAH_269_H8A_y,NAH_269_H8A_z,NAH_269_N7A_x,NAH_269_N7A_y,NAH_269_N7A_z,NAH_269_C5A_x,NAH_269_C5A_y,NAH_269_C5A_z,NAH_269_C6A_x,NAH_269_C6A_y,NAH_269_C6A_z,NAH_269_N6A_x,NAH_269_N6A_y,NAH_269_N6A_z,NAH_269_H61_x,NAH_269_H61_y,NAH_269_H61_z,NAH_269_H62_x,NAH_269_H62_y,NAH_269_H62_z,NAH_269_N1A_x,NAH_269_N1A_y,NAH_269_N1A_z,NAH_269_C2A_x,NAH_269_C2A_y,NAH_269_C2A_z,NAH_269_H2A_x,NAH_269_H2A_y,NAH_269_H2A_z,NAH_269_N3A_x,NAH_269_N3A_y,NAH_269_N3A_z,NAH_269_C4A_x,NAH_269_C4A_y,NAH_269_C4A_z Docking_ETH_TCL.csv