Subset
- Clavibacter Michiganensis Nebraskensis 1097677.33 link
- Clavibacter Michiganensis Nebraskensis 31963.54 link
- Clavibacter Michiganensis Nebraskensis 31963.56 link
Anotar los genomas en rast y descargar los archivos .fasta y .gbk.
Concatenar archivos y correr BLAST con la opción de prot
porque son Pangenomas.
cat ~/blast_Nebraskensis/data/*.faa > all-genomes.faa
mkdir database
makeblastdb -in ~/blast_Nebraskensis/data/all-genomes.faa -dbtype prot -out ~/blast_Nebraskensis/database/all-genomes
Correr blastp
con cada uno de los archivos
nohup blastp -query ~/blast_Nebraskensis/data/31963.56.faa -db ~/blast_Nebraskensis/database/all-genomes -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > ~/blast_Nebraskensis/output-blast/31963.56.blast &
nohup blastp -query ~/blast_Nebraskensis/data/31963.54.faa -db ~/blast_Nebraskensis/database/all-genomes -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > ~/blast_Nebraskensis/output-blast/31963.54.blast &
nohup blastp -query ~/blast_Nebraskensis/data/1097677.33.faa -db ~/blast_Nebraskensis/database/all-genomes -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > ~/blast_Nebraskensis/output-blast/1097677.33.blast &
- qseqid: Query Seq-id
- sseqid: Subject Seq-id
- pident: Percentage of identical matches
- length: Alignment length
- mismatch Number of mismatches
- gapopen: Number of gap openings
- qstart: Start of alignment in query
- qend: End of alignment in query
- sstart: Start of alignment in subject
- send: End if alignment in subject
- evalue: Expect value
- bitscore: Bit score
Concatenar los outputs
cat ~/blast_Nebraskensis/output-blast/*.blast > all-blast.blast
Correrlo con los algoritmos COG y COML
COG
get_homologues.pl -d genomes_gbks -G -t 0 -n 16
COML
get_homologues.pl -d genomes_gbks -M -t 0 -c -n 16
Obtenemos familias
for infile in *.faa; do base=$(basename ${infile} .faa); echo -n "${base},"; cat ${infile} | grep '>' | less -S | cut -d' ' -f1 | cut -d'>' -f2 | awk '{print}' ORS=',' | perl -ple 'chop'; done &> families.csv
Obtener pancore_matrix
less -S pancore-matrix.csv | cut -d',' -f1,6 | sort -t ',' -k 2 > ordered-pancore-matrix.csv
Scrip para generar la matriz de distancia usando el output de blast.
Scrip en Gudhi para crear la filtración de simplejos y analizar su persistencia.
Se detectan las mismas familias con TDA que con get_homologues y se puede determinar su persistencia y confianza.
- José María Ibarra Rodríguez
- Adriana Haydeé Contreras Peruyero
- Fernando Altamirano Fernández
- Andrea Chávez Heredia
- Marisol Navarro Miranda
- Cruz Vargas de León