FASTQ

序列数据分析

1. 背景知识

FASTQ格式是一种常用的序列文件格式，是当前高通量测序数据的标准格式。illumina测序得到的原始图像数据经过Base Calling转化为序列数据，结果以FASTQ文件格式来存储，包含测序read的序列信息以及测序质量信息。

FASTQ文件格式如下所示：

@K00169:186:HM5C2CCXX:6:1101:8136:2962 1:N:0:CTGGCATA

CCACTCATAATCCAGCAAATACTAAATCTGCTGCAGGAAAAGAAATGCGGTTGAGCTT

+

AFFKKFKKFFKKKKFKAFKKAAKFAFFKKFKKFFKKKKFKAFKKAAKFAFFKKFKKFFKF

第一行：区分不同reads的ID号。以’@’开始，后面跟着序列的描述信息。

第二行：序列信息，由碱基以及N组成。

第三行：'+'，或者与第一行相同，无特殊意义。

第四行：第二行序列中每个碱基对应的测序质量值，以ASCII码表示。

近年来，测序质量多采用Phred33编码方式，碱基质量得分Q与ASCII值的关系是：ASCII值 = Q + 33。一般，碱基质量为0 ~ 40，即ASCII值范围为33 ~ 73，对应字符为！~ I 。

根据碱基质量得分可以评估测序出错率，碱基质量得分Q与测序错误率P的换算关系为：Q = -10log10P 。

对于测序得到的FASTQ文件，通常需要进行常规的序列分析，来评估测序质量。比如，测序得到的reads数量、碱基含量分布（包括错误碱基N的含量分布）、GC含量分布、碱基质量分布等统计。

2. 实验目的

熟练使用python语言，对序列数据进行分析和可视化。

3. 实验任务

给定FASTQ文件“data1.fq”，进行如下分析。

1）GC含量统计并作图显示。计算每条read中的GC含量（即G+C的总含量），并用直方图显示。

2）统计所有reads在各位置上ACGT碱基以及N的含量分布，并作图显示。

3）将FASTQ文件中测序质量序列转换为碱基质量，统计所有reads在各位置上碱基质量分布，并作图显示。

4）产生低质量FASTQ文件“data1_low.fq”。对于给定的文件“data1.fq”，随机选择给定比例p（比如p=0.05）的reads，并对选择的reads随机选择k（k < len(read), 比如k = 15）个位置，将这k个位置上的碱基替换为字符“N”。用参数“-p 0.05 –k 15”运行脚本，得到低质量FASTQ文件“data1_low.fq”；然后，用题2）中的脚本重新统计各位置上的ACGT碱基以及N的含量分布，看是否有变化。

5）去除低质量FASTQ文件“data1_low.fq”中质量较低的read条目，生成高质量FASTQ文件“data1_high.fq”。考虑reads中N的数量以及reads中碱基的质量，当read中N的数量大于n或者reads中低质量碱基比例超过r（将质量低于q的碱基视为低质量碱基），则去除该read条目。用参数“-n 10 –q 20 –r 0.1”运行脚本，得到处理后的FASTQ文件“data1_high.fq”；然后，用题2）中的脚本重新统计各位置上的ACGT碱基以及N的含量分布，看是否有变化。

4. 实验报告要求

将实验任务的题目、以及对应的代码及图表结果等信息编辑在一个.doc文件中（注意代码缩进，代码用五号字号，其他文字用小四字号）。

acse-hy23/FASTQ

FASTQ

序列数据分析