Indexing misses duplicates containing non-ATGC characters
Opened this issue · 0 comments
Describe the bug
When I index the transcriptome duplicates with non-atgc characters are not identified as duplicates which leads to issues during quantification.
To Reproduce
using salmon v1.10.0
salmon index -p 12 -t testtranscriptome.fa -i nodecoy_salmon_index --keepDuplicates
Only GeneB is in the resulting duplicate_clusters.tsv
This is the transcriptome (both genes are duplicates of one another one GeneA contains non-atgc characters)
GeneB_L
ATAACTACCTTCACACCGGCAACCATTTTGTTTACGAAGCTACAGTACTTGACGGTCAGCAGCAGCTCAT
TTTCAACATGGCGTCGAGATATGCTGCGAGAGTGCTGTGGAATTTTACAGCTCTTAGAAGTGCGAAAACA
CGACATTTACTCAAACGAATATCTCCTCTGAGCAATTTTAGGGATTTTCCTTATTCAAGTGACTTTTTTC
GTAGCTCAGCGCGTTTTGTTTGTGACAATTCAGCTGCGAAAAGTGCTCAACTCGGAAAACTAGACGTTGA
GAAGTTCCACTTGATATACACGTGCAGGGTTTGCAATACAAGGTCGAGGAAAACAATCTCAAAGCAGGCA
TACCATCATGGTGTTGTTATCGTTAAGTGTCCAGGATGTAGTAACAATCACCTCATTGCTGATAATCTTG
GATGGTTTTATAATGACAAGAGAAATATCGAAGACATTCTTGAGGAAAAGGGCGAAAAAGTCACCAAGAA
TGTAACAGAAGAGTTAACTTTAGAAGTTTTGGCAGACAAAATTAAGGAATGATGGATCCTTTGTAAAGAT
TATGGGTAAATTTTGGAGCTACATTTTGTGTACACTAAATCAATTATACTAAATATTTCAAAAAACTGTC
ATCAAGGTGACAATGGTGTCTGTTTATTGCAATATTGGTTGTGCCATGGCATACCAAAAGTTCCGAGACA
AGAATGTTGCAGATGCGCAGGAAAATTATGGTTTAATTTTGAGCAAAATGCAAGTGAACTTTGGAACAAT
AACAAATAATCAATGTGCTTACTATAAACTGTGAAATGTGTGCACTTAAAGTTATAAAGGTTGGAAGTGA
CATATTACTCTCCCTGTAAAGACTATGTATTTGTCAGTAAGTGACATTAATGAATCATCATGGTAAGTCA
TTCCTCTACAAATAATATTGGAAGATTTGATATTTTGTACTGTTTAATCTTCATGTTATGAAGTTGACAA
TCAAAATTAGTTTTCATAATTAGACAAGTTTTTAAATGTTGCTTTCAAAATCCCCATGTTTTTTCTGTTT
TGCTTGGAAGCCTGTGAAGCAGAGAAACGTCTTCAATTCATGATGTTGTGTGCAATCTAATATCCCTCAA
GTGATTGTAGCAACCCTGGAAAAAGACATGAATTGAATAAATTAGGTAATACCTCATTTAACAGAACATA
AAGTGAG
GeneB_R
ATAACTACCTTCACACCGGCAACCATTTTGTTTACGAAGCTACAGTACTTGACGGTCAGCAGCAGCTCAT
TTTCAACATGGCGTCGAGATATGCTGCGAGAGTGCTGTGGAATTTTACAGCTCTTAGAAGTGCGAAAACA
CGACATTTACTCAAACGAATATCTCCTCTGAGCAATTTTAGGGATTTTCCTTATTCAAGTGACTTTTTTC
GTAGCTCAGCGCGTTTTGTTTGTGACAATTCAGCTGCGAAAAGTGCTCAACTCGGAAAACTAGACGTTGA
GAAGTTCCACTTGATATACACGTGCAGGGTTTGCAATACAAGGTCGAGGAAAACAATCTCAAAGCAGGCA
TACCATCATGGTGTTGTTATCGTTAAGTGTCCAGGATGTAGTAACAATCACCTCATTGCTGATAATCTTG
GATGGTTTTATAATGACAAGAGAAATATCGAAGACATTCTTGAGGAAAAGGGCGAAAAAGTCACCAAGAA
TGTAACAGAAGAGTTAACTTTAGAAGTTTTGGCAGACAAAATTAAGGAATGATGGATCCTTTGTAAAGAT
TATGGGTAAATTTTGGAGCTACATTTTGTGTACACTAAATCAATTATACTAAATATTTCAAAAAACTGTC
ATCAAGGTGACAATGGTGTCTGTTTATTGCAATATTGGTTGTGCCATGGCATACCAAAAGTTCCGAGACA
AGAATGTTGCAGATGCGCAGGAAAATTATGGTTTAATTTTGAGCAAAATGCAAGTGAACTTTGGAACAAT
AACAAATAATCAATGTGCTTACTATAAACTGTGAAATGTGTGCACTTAAAGTTATAAAGGTTGGAAGTGA
CATATTACTCTCCCTGTAAAGACTATGTATTTGTCAGTAAGTGACATTAATGAATCATCATGGTAAGTCA
TTCCTCTACAAATAATATTGGAAGATTTGATATTTTGTACTGTTTAATCTTCATGTTATGAAGTTGACAA
TCAAAATTAGTTTTCATAATTAGACAAGTTTTTAAATGTTGCTTTCAAAATCCCCATGTTTTTTCTGTTT
TGCTTGGAAGCCTGTGAAGCAGAGAAACGTCTTCAATTCATGATGTTGTGTGCAATCTAATATCCCTCAA
GTGATTGTAGCAACCCTGGAAAAAGACATGAATTGAATAAATTAGGTAATACCTCATTTAACAGAACATA
AAGTGAG
GeneA_L
CGTCTTGTGACATTTTTGCGATTTTTTGATGAAAATATTCAACGATGGAGCGTGGTTTTGAGCAAGAAAA
CTTGTACACAATCTCTAAACATGCAGCAGAATTCAAAACTAAGGTGAAAGTTCTTATTGATAATGAAGAA
GAGAAGATAGCACTTTTTAACGCTTTGAAATCCTATCACGAGATCCTATTCCTACTTATGATCTTACATA
AGAATGCTGGAGATGAGATCCTCTCTGTCAATAATTTGATTTTAAATGAAGCGACACATGAGGAGGTTGT
CAATCTACTAAGATCAAGACGAGTATTGGTTTTAAAAGTTAAAAGTACAGGGAAAGTCCCTTGTAAAATA
CTTGATTGTATCAGATGGGAAGAAGTACAGGACAAAGAGAATGTCTACTATCACCCTGACCTACTGTTTC
AAAGTCCATTAGAGGTGAGACTGTTACTGCGCATGTCATCCATTGACAGTGTCCCTTTAAGGCTGTCTCA
GAAACTMTCCGTYTTAGTMCARGACATCCGATCAATCCTMAAYACACCAAAGAGATACCCCCTATATAGA
GATGTCAGGTATTTGATAAATCCAGGTGATAGTGAAGCATTTCTCAAACTCATTCCACAGTCTCCTAGTG
ATGGTATTCATGTTGTAAGGATTCATAGAACAGGAAAAGAGGAGGCTGGGTTCAGTATAAGGGGAGGAAG
AGAGCACAAAGTAGGAGTTTTTGTGTCTTTTGTGCAGAGAGGGTCACCCGCAGATATTGTTGGACTCAAG
GCTGGAGATGAGATCCTCTCTGTGAATAATTTGATTTTAAATGAAGCGACACATGAGGAGGTTGTCAATC
TACTAAGATCAAGACGAGTATTGGTTTTAAAAGTTAAAAGTACAGGAAAAGTCCCTTGTAAAATACTTGA
TTGTATCAGATGGGAAGAAGTACAGGACAAAGAGAATGTCTACTATCACCCTGACCTACTGTGTCCAGTA
AAGGCAGTCTATTCTTCTCCTTATTCAATTATTCATTTGTTTATTTATTCATTTGCTTGTTTATTCTTAG
AAGAAGAGAAAGACCCGCAAAAGAGCGGTTTAGATGTCGGCAATGAGGAATTTAGTTCAATGACCCCAAA
CACCAGAAAACGATTGTTATTCAAAGAAGGCTTCCAAGTGATCGAATCATCAAATGTAATGGCAGCGAAT
CCCACCTCACCAACGTCTCCATCTTCATTGAATCCAAGCAACTTTGAAGTGCTAATTTGCATATACAACT
ACATATGCAAACACTTAGAGTTCTAGAAAATTTTCTTTTTAATTAAATGCTCTGAAAATCAACGAAATAA
ATAAGAAAGAGTTACTTAGAAAGCCACAATTTAAATTTTTGAAATTACTATTTTACATTTCACACAAGCT
CGGTAGAAAGTTTGGCTATTTCGAGTGCTATTTTTAGCCATCAAACATTTGTCACGCAAAGGCCCAGTAT
GTGACATTGTTTAGCGATTTTCTTGCGAAAAATGAAATATTTTCAAAAACCAATTACACAGCGATTGTTA
CCTAATCATACCTTATCAATATACAAAATATGAATAGATTTGATTTTTCGAGCCTTGCCAAGATATGTCT
GATTTTTGCGCGAAGTGGCTCTTAATGCATTTTCTCCAGATACAATACATGGCTGTGAGCTCAATAAACC
GACCAATAGCAGTAACATAACCCAAAATGGACCGGTCCGTATAACAGTATAAATTAACGTCACGTGATCG
GGTCTACTATTCAAAAATAGATTAAGTGATAGGTAGATTGCATGCCGATATATTTAAAAAGGTCTGAATA
TAGATCGAAGAGTATTTTAAGTTAAAATAATAGAATATAATAGGGGTAGAGTGGGTAGGGTATTTTGTAA
ATTGTAACCGCGGAGGAAGGGGTAAGTAAGTTGACTAGATGCATGTTAGACACAATCTGTATTTATTTCT
CGATAACTAGAAAGCTGCAGGACGACTGCAGCACAGAATAGAATATTTATTGAATATAAGGGACATGGTC
CACCAGCATCCTTTTCGAGCTTTTATTCATATGTTTGGAAATAAATATACATCGTAATA
GeneA_R
CGTCTTGTGACATTTTTGCGATTTTTTGATGAAAATATTCAACGATGGAGCGTGGTTTTGAGCAAGAAAA
CTTGTACACAATCTCTAAACATGCAGCAGAATTCAAAACTAAGGTGAAAGTTCTTATTGATAATGAAGAA
GAGAAGATAGCACTTTTTAACGCTTTGAAATCCTATCACGAGATCCTATTCCTACTTATGATCTTACATA
AGAATGCTGGAGATGAGATCCTCTCTGTCAATAATTTGATTTTAAATGAAGCGACACATGAGGAGGTTGT
CAATCTACTAAGATCAAGACGAGTATTGGTTTTAAAAGTTAAAAGTACAGGGAAAGTCCCTTGTAAAATA
CTTGATTGTATCAGATGGGAAGAAGTACAGGACAAAGAGAATGTCTACTATCACCCTGACCTACTGTTTC
AAAGTCCATTAGAGGTGAGACTGTTACTGCGCATGTCATCCATTGACAGTGTCCCTTTAAGGCTGTCTCA
GAAACTMTCCGTYTTAGTMCARGACATCCGATCAATCCTMAAYACACCAAAGAGATACCCCCTATATAGA
GATGTCAGGTATTTGATAAATCCAGGTGATAGTGAAGCATTTCTCAAACTCATTCCACAGTCTCCTAGTG
ATGGTATTCATGTTGTAAGGATTCATAGAACAGGAAAAGAGGAGGCTGGGTTCAGTATAAGGGGAGGAAG
AGAGCACAAAGTAGGAGTTTTTGTGTCTTTTGTGCAGAGAGGGTCACCCGCAGATATTGTTGGACTCAAG
GCTGGAGATGAGATCCTCTCTGTGAATAATTTGATTTTAAATGAAGCGACACATGAGGAGGTTGTCAATC
TACTAAGATCAAGACGAGTATTGGTTTTAAAAGTTAAAAGTACAGGAAAAGTCCCTTGTAAAATACTTGA
TTGTATCAGATGGGAAGAAGTACAGGACAAAGAGAATGTCTACTATCACCCTGACCTACTGTGTCCAGTA
AAGGCAGTCTATTCTTCTCCTTATTCAATTATTCATTTGTTTATTTATTCATTTGCTTGTTTATTCTTAG
AAGAAGAGAAAGACCCGCAAAAGAGCGGTTTAGATGTCGGCAATGAGGAATTTAGTTCAATGACCCCAAA
CACCAGAAAACGATTGTTATTCAAAGAAGGCTTCCAAGTGATCGAATCATCAAATGTAATGGCAGCGAAT
CCCACCTCACCAACGTCTCCATCTTCATTGAATCCAAGCAACTTTGAAGTGCTAATTTGCATATACAACT
ACATATGCAAACACTTAGAGTTCTAGAAAATTTTCTTTTTAATTAAATGCTCTGAAAATCAACGAAATAA
ATAAGAAAGAGTTACTTAGAAAGCCACAATTTAAATTTTTGAAATTACTATTTTACATTTCACACAAGCT
CGGTAGAAAGTTTGGCTATTTCGAGTGCTATTTTTAGCCATCAAACATTTGTCACGCAAAGGCCCAGTAT
GTGACATTGTTTAGCGATTTTCTTGCGAAAAATGAAATATTTTCAAAAACCAATTACACAGCGATTGTTA
CCTAATCATACCTTATCAATATACAAAATATGAATAGATTTGATTTTTCGAGCCTTGCCAAGATATGTCT
GATTTTTGCGCGAAGTGGCTCTTAATGCATTTTCTCCAGATACAATACATGGCTGTGAGCTCAATAAACC
GACCAATAGCAGTAACATAACCCAAAATGGACCGGTCCGTATAACAGTATAAATTAACGTCACGTGATCG
GGTCTACTATTCAAAAATAGATTAAGTGATAGGTAGATTGCATGCCGATATATTTAAAAAGGTCTGAATA
TAGATCGAAGAGTATTTTAAGTTAAAATAATAGAATATAATAGGGGTAGAGTGGGTAGGGTATTTTGTAA
ATTGTAACCGCGGAGGAAGGGGTAAGTAAGTTGACTAGATGCATGTTAGACACAATCTGTATTTATTTCT
CGATAACTAGAAAGCTGCAGGACGACTGCAGCACAGAATAGAATATTTATTGAATATAAGGGACATGGTC
CACCAGCATCCTTTTCGAGCTTTTATTCATATGTTTGGAAATAAATATACATCGTAATA