生信课程笔记5-数据格式

FastA格式

>gi|187608668|ref|NM001043364.2| Bombyx mori moricin (Mor), mRNA AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCC

Fasta格式首先以大于号“>”开头，接着是序列的标识符，然后是序列的描述信息。换行后是序列信息，序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束。

FastQ格式

FastQ格式存储了生物序列以及相应的质量评价。最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

格式说明：FASTQ文件中每个序列通常有四行：

1.第一行：必须以“@”开头，后面跟着唯一的序列ID标识符，然后跟着可选的序列描述内容，标识符与描述内容用空格分开；

2.第二行：序列字符（核酸为[AGCTN]，蛋白为氨基酸字符）；

3.第三行：必须以“+”开头，后面跟着可选的ID标识符和可选的描述内容，如果“+”后面有内容，该内容必须与第一行“@”后的内容相同；

4.第四行：碱基质量字符，每个字符对应第二行相应位置碱基或氨基酸的质量，该字符可以按一定规则转换为碱基质量得分，碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。

碱基的质量（Phred quality score）Q = -10 log10 P。P代表该碱基被测序错误的概率，如果该碱基测序出错的概率为0.001，则Q应该为30。那么30+33=63，那么63对应的ASCII码为“？”。一般地，碱基质量从0-40，既ASCII码为从 “！”（0+33）到“I”（40+33）。

fastq

ASCII = 碱基的质量+33

SAM格式

SAM格式（Sequence Alignment/Map）是一种通用的比对格式，用来存储reads到参考序列的比对信息。SAM分为两部分，标头注释信息（header section）和比对结果部分（alignment section）。

标头信息可有可无，都是以@开头，用不同的tag表示不同的信息。

@HD：符合标准的版本、对比序列的排列顺序

@SQ：参考序列说明

@RG：比对上的 reads 说明

@PG：使用说明

@Co：任意的说明信息

除注释外，每一行是一个read，包括11个必须的字段（mandatory fields）和一个可选的字段，字段之间用tab分割。必须字段的顺序固定，根据字段定义，可以为0或者*。

sam

sam的11个字段

BAM格式

BAM（Binary Alignment/Map）是SAM的二进制格式，保留了与SAM完成相同的内容信息，BAM文件占用储存空间更小，运算更快。

BAM文件中每行代表一条reads的比对信息，其中第一列是read的ID，第二列为FLAG（包括是否双端比对，比对位点是否唯一等信息），第三列为比对的染色体，第四列为比对的起始位置，第六列为CIGAR值，代表比对的具体方式（例60M2D80M代表60个碱基完美匹配+2个碱基缺失+80个碱基完美匹配）等等。

bam

GTF格式

提供基因位置的注释文件通常以GTF或GFF3格式呈现。有GTF文件后，就可以利用注释信息计算每个基因/转录本/外显子比对了多少reads，从而获取counts值。

第一列是染色体编号，第三列是本行的特征（feature），如gene、transcript、exon、CDS等（实际上大多数情况下，计算表达量只要带exon的行就够了），第四列和第五列是基因组起始和终止位置，第七列是正负链，第九列是注释信息（可以包括类似基因ID、转录本ID、基因名等信息）。

gtf

Stringtie输出的sample_out.gtf，记录的转录本表达量信息，包括每个外显子的覆盖度。

gtf

BED格式

BED（Browser Extensible Data）格式文件就是通过规定行的内容来展示注释信息。BED文件每行至少包括chrom，chromStart，chromEnd三列；另外还可以添加额外的9列，这些列的顺序是固定的，每行的格式要求一致。

在自定义BED文件时，前面可以有注释行，以“browser”或“track”开头，可以设置一些参数便于浏览器更好展示BED文件信息。但是，下游的一些分析工具，例如bedToBigBed，是不接受有注释的BED文件的。

chrom：染色体号，例如chr1、chrX。或scafflold的名字。

chromStart：feature在染色体上起始位置。染色体上第一个碱基位置标记为0。

chromEnd：feature在染色体上终止位置。染色体的末端位置没有包含到显示信息里面。

染色体上前100个碱基片段的位置位置标记为：chromStart=0, chromEnd=100。实际上，第100个碱基不属于当前片段中，当前片段的碱基应该是0-99。所以在BED文件中，起始位置从0开始，终止位置从1开始。

可选的9列：name，score，strand，thickStart，thickEnd，itemRgb，blockCount，blockSizes，blockStarts。

vcf格式

vcf格式（Variant Call Format）是用于记录variants（SNP / InDel）的文件格式。

vcf格式是存储变异位点的标准格式，可以用来表示单核苷酸多态性(SNP) 【在人类基因组中分布普遍并且密度比较大，总数超过107，平均每300bp就有一个SNP】、插入缺失(InDel) 【也就是短片段的插入与缺失】、结构变异(SV) 【Structural Variant，大片段的插入与缺失】、拷贝数量变异(CNV) 【Copy Number Variant，比如一个基因在染色体的一条染色单体上的数目为1，但是在染色体复制过程中，复制结束后该基因在染色单体数目由1变成了2或者n。它发生的频率远远高于染色体结构变异，并且整个基因组中覆盖的核苷酸总数大大超过SNP的总数】。

vcf

VCF文件分为两部分内容：以“#”开头的注释部分和没有“#”开头的主体部分。注释部分有很多对VCF的介绍信息；主体部分包含10列数据，每一行代表一个variant的信息。

##fileformat：VCF格式版本号

##FILTER：显示这个文件已经进行了过滤

##reference & contig：使用的参考基因组信息及参考基因组contig信息

##INFO行：是碱基位点的注释。每一行必须的四个标签是：ID、Number、Type、Description，主要有几个tag标记：AD、DP、GQ、GT、PL。

主体部分10列的范例： CHROM、POS、ID、REF、ALT、QUAL、FILTER、INFO、FORAMT、SAMPLE（前8列必须要有）。

chrM（染色体） 150（变异的第一个位置） .（变异位点名称） T（参考序列该位置碱基） C（该位置变异的碱基） 7766.77（变异的质量值） PASS（是否要被过滤掉） AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904（NFO：variant的相关信息。） GT:AD:DP:GQ:PL（FORMAT：variants的格式） 1/1:0,175:175:99:7795,531,0（使用的样本名称）

1. CHROM：参考序列名称

2. POS：variant所在的left-most位置(1-base position)（发生变异的位置的第一个碱基所在的位置）

3. ID：variant的ID。同时对应着dbSNP数据库中的ID，若没有，则默认使用‘.’

4. REF：参考序列的Allele，（等位碱基，即参考序列该位置的碱基类型及碱基数量）

5. ALT：variant的Allele，若有多个，则使用逗号分隔，（变异所支持的碱基类型及碱基数量）这里的碱基类型和碱基数量，对于SNP来说是单个碱基类型的编号，而对于Indel来说是指碱基个数的添加或缺失，以及碱基类型的变化

6. QUAL：variants的质量。Phred格式的数值，代表着此位点是纯合的概率，此值越大，则概率越低，代表着次位点是variants的可能性越大。（表示变异碱基的可能性）

7. FILTER：此位点是否要被过滤掉。如果是PASS，则表示此位点可以考虑为variant。

8. INFO：variant的相关信息。AC：variant数目，AF：频率，AN：总数目，DP：reads覆盖度，FS：Fishers精确检验来检测strand bias而得到的Fhred格式的p值。

9. FORMAT：variants的格式，例如GT:AD:DP:GQ:PL。第9列是基因型信息的多个标签。GT（genotype），0/0表示sample中该位点为纯合位点，和REF的碱基类型一致；0/1表示sample中该位点为杂合突变。AD(Allele Depth)为sample中每一种allele（等位碱基）的reads覆盖度。DP(Depth)为sample中该位点的覆盖度。GQ（Genotype Quality）基因型的质量值，基因型存在的概率。PL（likelihood genotypes）指定的三种基因型的质量值，0/0，0/1，1/1。

10. SAMPLES：各个Sample的值，由BAM文件中的@RG下的SM标签所决定，这些值对应着第9列的各个格式，不同格式的值用冒号分开，每一个sample对应着1列；多个samples则对应着多列，这种情况下列的数多于10列。

BCF格式

BCF是VCF的二进制文件。

最后编辑于：2020.03.17 22:24:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342