Rare Diseases Hackathon 2024 (https://www.rarediseaseaihackathon.org/)

Team_Intronic_HPP

Then split those multiple-FASTA into multiple FASTAs (one FASTA per exon / intron):

for exons FASTA: awk '/^>/{s="ALPL_exon"++d".fasta"} {print > s}' ALPL_exons_flank100bp.fasta

for introns FASTA: awk '/^>/{s="ALPL_intron"++d".fasta"} {print > s}' ALPL_introns_flank100bp.fasta

Create clinvar_results_trimmed.txt with columns [Name, Gene(s), Accession, GRCh38Location, Variant type]

Use parse_clinvar.ipynb to:

Parse ClinVar results - filter for: Name = NM_00047, Gene(s) = ALPL, Variant type = single nucleotide variant
Create a FASTA file per intron / exon variant.

jjjk123/Team_Intronic_HPP