处理fastq文件获得序列全名
flystar233 opened this issue · 2 comments
flystar233 commented
因为fastq 压缩文件巨大,建索引需要很久,而且占用空间。如果只是简单遍历fastq文件,不做随机读取,就没有必要对fastq建索引。但是不建立索引,使用元祖索引获取序列id时只能获得短名,程序可以不建索引返回序列全名么?
>>>head -1 test.fq
>>>@A00838:157:H2Y5TDSXY:4:1101:1398:1000 1:N:0:ATTCAGAA+CCTATCCT
for read in pyfastx.Fastq('test.fq',build_index=False):
print(read[0])
>>>A00838:157:H2Y5TDSXY:4:1101:1398:1000
lmdu commented
在最新版本中,已为Fastq添加full_name=True参数,配合build_index=False来获取全名。同时新版本中添加了Fastx类,遍历文件中的reads,返回的元组中comment为,除ID外剩余的名称部分,可以获取全名。
flystar233 commented
好的,已经添加full_name=True 解决问题。谢谢~