Fasta & Fastq
-
Fasta
a也即alignment,Fasta格式也称为Pearson格式,是一种基于文本,用于表示核苷酸序列或氨基酸序列的格式,一般为参考基因组序列。fasta格式文件共2行,第1行是由大于号'>'头用于序列标记,第二行开始为序列信息。
-
Fastq
q也即quality,Fasta格式是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式,一般是测序仪的下机数据。Fastq格式以测序读段(read)为单位存储,每条读段占4 行,第一行由'@'开始,后面跟着序列的描述信息,这点跟Fasta格式是一样的。第二行是序列信息。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列的测序质量评价),字符数跟第二行的序列是相等的
SAM & BAM
当测序得到的fastq文件map到基因组之后,通常会得到一个SAM或者BAM为扩展名的文件。SAM的全称是sequence alignment/map format,而BAM就是SAM的二进制文件(B取自binary)。
SAM是一种序列比对后的输出格式,以tab作为分隔符,SAM由头文件和map结果组成。头文件由一行以@起始的注释构成。看上去很类似fastq文件,它也有read名称,序列,质量等信息,但是又不完全一样。首先,每个read只占一行,但是被tab分成了很多列,共12列详情如下:
VCF(Variant Call Format)
VCF是文本文件格式(最有可能以压缩方式存储)。它包含元信息行,标题行,然后是数据行,每个数据行都包含有关基因组中位置的信息。
- 元信息行Meta informations
以’##’开始,第一行必须是VCF的版本信息 - 标题行及数据行:
Header line | 含义 | 备注 |
---|---|---|
CHROM | 表示变异位点是在哪个contig 里call出来的,如果是人类全基因组的话那就是chr1…chr22,chrX,Y,M | 必填 |
POS | 变异位点相对于参考基因组所在的位置,如果是indel,就是第一个碱基所在的位置 | 必填 |
ID | 如果call出来的SNP存在于dbSNP数据库里,就会显示相应的dbSNP里的rs编号,如果没有的话用"."表示 | |
REF | 与参考基因组相同的位点 | 必填 |
ALT | 与参考基因组不同的位点 | |
QUAL | 可以理解为所call出来的变异位点的质量值。Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。 | |
FILTER | 如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。 | |
INFO | INFO附加信息:(字母数字字符串)INFO字段被编码为以分号分隔的一系列短键,其可选值的格式为:<key> = <data> [,data]。 |
gff/gtf
gff格式为general feature format缩写,目前采用的是version 3。gtf文件为General Transfer Format缩写,跟GFF2格式类似。即常说的gff3文件。这两种文件常用来对基因组进行注释,表示基因,外显子,CDS,UTR等在基因组上的位置。
列 | GTF2 | GFF3 |
---|---|---|
reference sequence name | same | same |
annotation source | same | same |
feature type | feature requirements depend on software | can be anything |
start coordinate | same | same |
5. end coordinate | same | same |
score | not used | optional |
strand | same | same |
frame | same | same |
attributes | 空格分隔 | =分隔 |
Bed
Browser Extensible Data
Bed文件是可变的数据线,用来描述注释的数据,Bed文件有3个基本列及9个附加列
- 基本列:基因组编号,染色体起始位置,染色体结束位置。
- 附加列
name | feature 的名字 |
---|---|
score | 在基因组浏览器中显示的灰度设定,取值介于0-1000 |
strand | 定义“+”链或者“-”链 |
thickStart | feature的起始位置 |
thickEnd | feature的终止位置 |
itermRgb | R,G,B (e.g. 255,0,0)值,当itemRgb 设置为 "On",BED的行会显示颜色 |
blockCount | Blocks(exons)个数 |
blockSize | Blocks(exons)的大小列表,逗号分隔 |
blockStarts | Blocks(exons)的起始位置列表,逗号分隔 |