生信课程笔记5-数据格式

FastA格式 

>gi|187608668|ref|NM001043364.2| Bombyx mori moricin (Mor), mRNA AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCC

  Fasta格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。 换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。

所有来源于NCBI的序列都有一个唯一的gi号“gi|gi_identifier”。gi号后面是序列的标识符,标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。 “ref|NM001043364.2|”表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。


FastQ格式

FastQ格式存储了生物序列以及相应的质量评价。最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

格式说明:FASTQ文件中每个序列通常有四行:

1.第一行:必须以“@”开头,后面跟着唯一的序列ID标识符,然后跟着可选的序列描述内容,标识符与描述内容用空格分开;

2.第二行:序列字符(核酸为[AGCTN],蛋白为氨基酸字符);

3.第三行:必须以“+”开头,后面跟着可选的ID标识符和可选的描述内容,如果“+”后面有内容,该内容必须与第一行“@”后的内容相同;

4.第四行:碱基质量字符,每个字符对应第二行相应位置碱基或氨基酸的质量,该字符可以按一定规则转换为碱基质量得分,碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。

碱基的质量(Phred quality score)Q = -10 log10 P。P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30。那么30+33=63,那么63对应的ASCII码为“?”。一般地,碱基质量从0-40,既ASCII码为从 “!”(0+33)到“I”(40+33)。

fastq
ASCII = 碱基的质量+33


SAM格式

SAM格式(Sequence Alignment/Map)是一种通用的比对格式,用来存储reads到参考序列的比对信息。SAM分为两部分,标头注释信息(header section)和比对结果部分(alignment section)

标头信息可有可无,都是以@开头,用不同的tag表示不同的信息。

@HD:符合标准的版本、对比序列的排列顺序

@SQ:参考序列说明

@RG:比对上的 reads 说明

@PG:使用说明

@Co:任意的说明信息

除注释外,每一行是一个read,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tab分割。必须字段的顺序固定,根据字段定义,可以为0或者*。

sam
sam的11个字段


BAM格式

BAM(Binary Alignment/Map)是SAM的二进制格式,保留了与SAM完成相同的内容信息,BAM文件占用储存空间更小,运算更快。

BAM文件中每行代表一条reads的比对信息,其中第一列是read的ID,第二列为FLAG(包括是否双端比对,比对位点是否唯一等信息),第三列为比对的染色体,第四列为比对的起始位置,第六列为CIGAR值,代表比对的具体方式(例60M2D80M代表60个碱基完美匹配+2个碱基缺失+80个碱基完美匹配)等等。

bam


GTF格式

提供基因位置的注释文件通常以GTF或GFF3格式呈现。有GTF文件后,就可以利用注释信息计算每个基因/转录本/外显子比对了多少reads,从而获取counts值。

第一列是染色体编号,第三列是本行的特征(feature),如gene、transcript、exon、CDS等(实际上大多数情况下,计算表达量只要带exon的行就够了),第四列和第五列是基因组起始和终止位置,第七列是正负链,第九列是注释信息(可以包括类似基因ID、转录本ID、基因名等信息)。

gtf

Stringtie输出的sample_out.gtf,记录的转录本表达量信息,包括每个外显子的覆盖度。

gtf


BED格式

BED(Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息。BED文件每行至少包括chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的,每行的格式要求一致。

在自定义BED文件时,前面可以有注释行,以“browser”或“track”开头,可以设置一些参数便于浏览器更好展示BED文件信息。但是,下游的一些分析工具,例如bedToBigBed,是不接受有注释的BED文件的。

chrom:染色体号,例如chr1、chrX。或scafflold的名字。

chromStart:feature在染色体上起始位置。染色体上第一个碱基位置标记为0。

chromEnd:feature在染色体上终止位置。染色体的末端位置没有包含到显示信息里面。

染色体上前100个碱基片段的位置位置标记为:chromStart=0, chromEnd=100。实际上,第100个碱基不属于当前片段中,当前片段的碱基应该是0-99。所以在BED文件中,起始位置从0开始,终止位置从1开始。

可选的9列:name,score,strand,thickStart,thickEnd,itemRgb,blockCount,blockSizes,blockStarts。


vcf格式

vcf格式(Variant Call Format)是用于记录variants(SNP / InDel)的文件格式。

vcf格式是存储变异位点的标准格式,可以用来表示单核苷酸多态性(SNP) 【在人类基因组中分布普遍并且密度比较大,总数超过107, 平均每300bp就有一个SNP】、插入缺失(InDel) 【也就是短片段的插入与缺失】、结构变异(SV) 【Structural Variant,大片段的插入与缺失】、拷贝数量变异(CNV) 【Copy Number Variant,比如一个基因在染色体的一条染色单体上的数目为1,但是在染色体复制过程中,复制结束后该基因在染色单体数目由1变成了2或者n。它发生的频率远远高于染色体结构变异,并且整个基因组中覆盖的核苷酸总数大大超过SNP的总数】。

vcf

VCF文件分为两部分内容:以“#”开头的注释部分和没有“#”开头的主体部分。注释部分有很多对VCF的介绍信息;主体部分包含10列数据,每一行代表一个variant的信息

##fileformat:VCF格式版本号

##FILTER:显示这个文件已经进行了过滤

##reference & contig:使用的参考基因组信息及参考基因组contig信息

##INFO行:是碱基位点的注释。每一行必须的四个标签是:ID、Number、Type、Description,主要有几个tag标记:AD、DP、GQ、GT、PL。

主体部分10列的范例: CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE(前8列必须要有)。

chrM(染色体) 150(变异的第一个位置) .(变异位点名称) T(参考序列该位置碱基) C(该位置变异的碱基) 7766.77(变异的质量值) PASS(是否要被过滤掉) AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904(NFO:variant的相关信息。) GT:AD:DP:GQ:PL(FORMAT:variants的格式) 1/1:0,175:175:99:7795,531,0(使用的样本名称)

1. CHROM:参考序列名称

2. POS:variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置)

3. ID:variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用‘.’

4. REF:参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)

5. ALT:variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化

6. QUAL:variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大。(表示变异碱基的可能性)

7. FILTER:此位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为variant。

8. INFO:variant的相关信息。AC:variant数目,AF:频率,AN:总数目,DP:reads覆盖度,FS:Fishers精确检验来检测strand bias而得到的Fhred格式的p值。

9. FORMAT:variants的格式,例如GT:AD:DP:GQ:PL。第9列是基因型信息的多个标签。GT(genotype),0/0表示sample中该位点为纯合位点,和REF的碱基类型一致;0/1表示sample中该位点为杂合突变。AD(Allele Depth)为sample中每一种allele(等位碱基)的reads覆盖度。DP(Depth)为sample中该位点的覆盖度。GQ(Genotype Quality)基因型的质量值,基因型存在的概率。PL(likelihood genotypes)指定的三种基因型的质量值,0/0,0/1,1/1。

10. SAMPLES:各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多于10列。


BCF格式

BCF是VCF的二进制文件。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容