sam文件解读

SAM分为两部分，注释信息（header section）和比对结果部分（alignment section）。

注释信息可有可无，都是以@开头，用不同的tag表示不同的信息，主要有：

@HD VN:1.0 SO:unsorted （排序类型）

头部区第一行：VN是格式版本；SO表示比对排序的类型，有unknown（default），unsorted，queryname和coordinate几种。samtools软件在进行行排序后不能自动更新bam文件的SO值，而picard却可以。

@SQ SN:contig1 LN:9401 （序列ID及长度）

参考序列名，这些参考序列决定了比对结果sort的顺序，SN是参考序列名；LN是参考序列长度；每个参考序列为一行。

例如：@SQ SN:NC_000067.6 LN:195471971

@RG ID:sample01 （样品基本信息）

Read Group。1个sample的测序结果为1个Read Group；该sample可以有多个library的测序结果，可以利用bwa mem -R 加上去这些信息。

例如：@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq

ID：样品的ID号 SM：样品名 LB：文库名 PU：测序以 PL：测序平台

这些信息可以在形成sam文件时加入，ID是必须要有的后面是否添加看分析要求

@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 （比对所使用的软件及版本）

例如：@PG ID:bwa PN:bwa VN:0.7.12-r1039 CL:bwa sampe -a 400 -f ZX1.sam -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq ../0_Reference/Reference_Sequence.fa ZX_HQ_clean_R1.fq.sai ZX_HQ_clean_R2.fq.sai ../2_HQData/ZX_HQ_clean_R1.fq ../2_HQData/ZX_HQ_clean_R2.fq

这里的ID是bwa，PN是bwa，VN是0.7.12-r1039版本。CL可以认为是运行程序@RG是上面RG表示的内容，后面是程序内容，这里的@GR内容是可以自己在运行程序是加入的

比对结果部分（alignment section），每一行表示一个片段（segment）的比对信息，包括11个必须的字段（mandatory fields）和一个可选的字段，字段之间用tag分割。必须的字段有11个，顺序固定，不可用时，根据字段定义，可以为’0‘或者’*‘，这是11个字段包括：

第一列： QNAME：测序出来的reads序列数据名如：SRR3101251.1

第二列：FLAG：0正链，16负链，4没比对上：

1 （1）该read是成对的paired reads中的一个

2 （10） paired reads中每个都正确比对到参考序列上

4 （100）该read没比对到参考序列上

8 （1000）与该read成对的matepair read没有比对到参考序列上

16 （10000）该read其反向互补序列能够比对到参考序列

32 （100000）与该read成对的matepair read其反向互补序列能够比对到参考序列

64 （1000000）在paired reads中，该read是与参考序列比对的第一条

128 （10000000）在paired reads中，该read是与参考序列比对的第二条

256 （100000000）该read是次优的比对结果

512 （1000000000）该read没有通过质量控制

1024 （10000000000）由于PCR或测序错误产生的重复reads

2048 （100000000000）补充匹配的read

第三列：RNAME：参考基因组的染色体名，如：chr19

第四列：POS：比对到这个染色的具体位置（从1'端开始）如9486878

第五列：MAPQ：比对质量，是一个衡量比对好坏的打分结果，越高越好

#### hisat2 ####

60 - uniquely mapped read, regardless of number of mismatches / indels

1 - multiply mapped, perfect match or few mismatches / indels

0 - unmapped, or multiply mapped and with lots of mismatches / indels

第六列：CIGAR：简要比对信息表达式（Compact Idiosyncratic Gapped Alignment Report）：如M：完全比配；D：缺失。以参考序列为基础，使用数字加字母表示比对结果，比如3S6M1P1I4M，前三个碱基被剪切去除了，然后6个比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个比对上了，是按照顺序的；

第七列：RNEXT：下一个片段比对上的参考序列的编号，没有另外的片段，这里是’*‘，同一个片段，用’=‘；第八列：PNEXT：配对片段（即mate）比对上的参考序列的编号，没有另外的片段，这里是'*'，同一个片段，用'='；第九列：TLEN：配对片段（即mate）比对到参考序列上的第一个碱基位置，若无mate,则为0；第十列：SEQ：Template（文库插入序列）的长度，最左边得为正，最右边的为负，中间的不用定义正负，不分区段（single-segment)的比对上，或者不可用时，此处为0；

第十一列：QUAL：ASCII编码的序列reads质量。ASCII码偏移33。序列的质量信息，格式同FASTQ一样。

第十二列：可选字段（optional fields)，格式如：TAG:TYPE:VALUE，其中TAG有两个大写字母组成，每个TAG代表一类信息，每一行一个TAG只能出现一次，TYPE表示TAG对应值的类型，可以是字符串、整数、字节、数组等。

粗略介绍：

1：QNAME 比对的序列名称例如：M04650:84:000000000-B837R:1:1101:22699:1759（一条测序reads的名称）

2：FLAG Bwise FLAG（表明比对类型：paring，strand，mate strand等）例如：99

3：RENAME 比对上的参考序列名例如：NC_000075.6

4：POS 1-Based的比对上的最左边的定位例如：124057649

5：MAPQ 比对质量例如：60

6：CIGAR Extended CIGAR string（操作符：MIDNSHP）比对结果信息；匹配碱基数，可变剪接等例如：87M

7：MRNM 相匹配的另外一条序列，比对上的参考序列名例如：=

8：MPOS 1-Based leftmost Mate Position （相比于MRNM列来讲意思和POS差不多）例如：124057667

9：ISIZE 插入片段长度例如：200

10：SEQ 和参考序列在同一个链上比对的序列（若比对结果在负义链上，则序列是其反向重复序列，反向互补序列）例如：ATTACTTGGCTGCT

11：QUAL 比对序列的质量（ASCII-33=Phred base quality）reads碱基质量值例如：-8CCCGFCCCF7@E- :12：可选的列以TAG：TYPE：VALUE的形式提供额外的信息

详细：

ref： SAM格式详解- CSDN博客

最后编辑于：2018.12.24 15:20:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342

sam文件解读

注释信息可有可无，都是以@开头，用不同的tag表示不同的信息，主要有：

粗略介绍：

详细：

推荐阅读更多精彩内容