计算位点的覆盖度和深度

前面搜集了一些计算测序覆盖度和深度的方法,这次详细介绍下samtools如何解决了我的问题。


覆盖度和深度

测序深度是指测序得到的总碱基数与待测基因组大小的比值,可以理解为基因组中每个碱基被测序到的平均次数。测序深度 = reads长度 × 比对的reads数目 / 参考序列长度。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度是指测序获得的序列占整个基因组的比例。指的是基因组上至少被检测到1次的区域,占整个基因组的比例。当然,有些文章中也会将测序深度称为Coverage,容易给我们带来混淆。


参考文章:NGS基础概念-depth and coverage


问题

我们有500多个SNP位点,交给公司设计panel,样本测序后想检测这500多个SNP位点是否被测到,以及这些位点的测序的深度。目前只知道SNP位点,并不知道设计的panel具体区间是什么。

尝试1:Qualimap

Qualimap是功能比较全的一款质控软件,可以对bam文件,RNA-seq,Counts数据质控,也支持比对数据,counts数据和表观数据的比较和聚类,并提供了GUI界面和命令行界面。

下载安装Qualimap

wget https://bitbucket.org/kokonech/qualimap/downloads/qualimap_v2.2.1.zip
unzip https://bitbucket.org/kokonech/qualimap/downloads/qualimap_v2.2.1.zip
cd qualimap_v2.2.1
./qualimap

# 安装相关的R包
# NOISeq,Repitools, Rsamtools, GenomicFeatures, rtracklayer

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("NOISeq", version = "3.8")
BiocManager::install("Repitools", version = "3.8")
BiocManager::install("Rsamtools", version = "3.8")
BiocManager::install("GenomicFeatures", version = "3.8")
BiocManager::install("rtracklayer", version = "3.8")

使用

qualimap bamqc -bam file.bam -outdir qualimap_results -outformat pdf

我先是用的上面的命令,算出来结果只有每条染色体的平均coverage,而且非常低。


再一想上面用的命令是不对的,那是针对全基因组,参考序列长度是基于全基因组的长度,所以得出的coverage才如此低。而我的数据是靶向测序,只是全基因组上一些片段,所以我必须知道靶向的区域,才能计算coverage。问题是我只知道关心的SNP位点,并不知道公司设计的靶向区域是什么。如果知道靶向区域,是可以做个bed文件,然后加上-gff参数。

  • -gff,--feature-file <arg> Feature file with regions of interest in
    GFF/GTF or BED format

那么有没有什么方法可以统计单个位点的测序深度呢?

尝试2:DepthOfCoverage

看了下GATK的DepthOfCoverage有个-L参数是可以提供靶向区域,除此之外还有个omitDepthOutputAtEachBase参数,还是解决不了我的问题。

java -Xmx4g -jar GenomeAnalysisTK.jar
-R ref_genome.fasta
-T DepthOfCoverage
--omitDepthOutputAtEachBase
--omitIntervalStatistics
--omitLocusTable
-ct 0 -ct 1 -ct 5 -ct 10 -ct 15 -ct 20 -ct 25 -ct 30
--nBins 99 --start 1 --stop 100
-I sample.bam
-o sample.depth

尝试3:samtools mpileup/depth

samtools mpileup/depth在直播我的基因组里面讲过,我最初尝试的也是这个方法,但是统计方向错了,一是我明明关注的是单个位点的情况,我却统计每条染色体的覆盖度;二是用错了参考序列的长度,最终导致算的覆盖度很低,刚开始没明白为什么。

samtools depth是可以直接统计每个位点的覆盖深度,输出结果包括三列:

  • reference name
  • postion
  • coverage depth


使用

samtools depth final.bam > all_position_depth
all_position_depth

然后从all_position_depth文件提取出所关心的SNP位点即可:


final_depth

总结

全基因组、全外显子组或者靶向测序计算覆盖度和深度时一定要注意参考序列长度的选择。这一点在直播我的基因组系列教程( 「直播」我的基因组(21):为什么我算出的染色体覆盖度与公司差异甚大)也有提到,健明师兄最初算的染色体长度是全部碱基的长度,包含碱基N,而公司统计的是去除碱基N的,还有就是他们对Y染色体的重复序列在比对分析的时候也mask掉了。
而我的是靶向测序,最初统计覆盖度时没有考虑到参考序列长度,实际计算的结果是以全长基因组为参考序列长度,所以结果就出奇的低了。
另外如果是只关心某些位点是否被测到,以及测到的深度,可以直接用samtools depth

走的这么多弯路归根结底还是对概念、原理理解的不透彻,今后要加强这方面的学习。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容