GATK官网学习笔记Data pre-processing for variant discovery

这篇笔记是对GATK官网上发布的寻找突变体之前的数据预处理这一块内容的学习笔记。实际上也是一篇翻译笔记。原文在这里,是发表在20多天前的,是一个很短小的文章:https://gatk.broadinstitute.org/hc/en-us/articles/360035535912-Data-pre-processing-for-variant-discovery

Purpose

这是在寻找突变体之前必须做的第一阶段。它包括对原始序列数据(以FASTQ或uBAM格式)进行预处理,生成可分析的BAM文件。这包括对参考基因组的比对以及一些数据清理操作,以纠正技术偏差,使数据更适合后续分析。

一般流程是:

Expected input

上面这个工作流程是针对单个样本进行操作的,这些样本的数据最初被组织在不同subset中,称为read group(关于read group里都包含哪些信息,可以参考文章:WES中常见问题汇总)。这些read group对应于由多重化产生的库的交集(DNA产物从生物样本分离出来,准备测序,其中包括DNA片段和用于标记的barcodes)和lane(DNA测序芯片的物理分隔)。我们的reference implementations 读取未映射的BAM (uBAM)格式数据作为输入。转换程序可用于从FASTQ转换到uBAM。

Main steps

数据预处理的过程可以概括为:首先将序列reads比对到参考基因组,生成一个按坐标排序的SAM/BAM文件。接下来,我们标记重复,以减少数据生成步骤(如PCR扩增)带来的偏差。最后,我们重新校准基础质量分数,因为不同的calling算法高度依赖分配给每个序列read中单独的基础calls的质量分数。

(1)Map to Reference

涉及到的软件:BWA, MergeBamAlignments

第一个处理步骤是按每一个read group进行处理,包括将每对read比对到参考基因组上。因为比对算法是单独处理每对read的,所以可以进行大规模并行处理。

(2)Mark Duplicates

涉及软件:MarkDuplicatesSpark / MarkDuplicates + SortSam

MarkDuplicatesSpark:
第二个处理步骤是对每个样本进行操作,包括通过一些人工操作,识别可能来自相同原始DNA片段的重复的reads对。这些被认为是非独立的观察,因此软件在每组重复中标记除了单个read对之外的所有read对。在这一步里,还需要按照染色体顺序对reads进行排序,以便进行下一步的处理。MarkDuplicatesSpark用来重复标记和排序。这一步曾经是一个技术瓶颈,因为在样本中read对之间进行大量比较,之后MarkDuplicatesSpark利用Apache Spark来并行化进程,从而更好地利用可用资源。即使不访问专用的Spark集群,也可以在本地运行此工具。

MarkDuplicates and SortSam:
作为MarkDuplicatesSpark的替代方案,可以通过使用Picard软件里的MarkDuplicates实现来执行这个步骤,然后使用SortSam对read进行排序。这两个工具目前都是作为单线程工具实现的,因此无法利用core并行性的优点。建议在服务器上运行。

(3)Base (Quality Score) Recalibration

涉及软件: BaseRecalibrator, Apply Recalibration, AnalyzeCovariates (optional)

第三个处理步骤对每个样本进行操作,包括应用机器学习来检测和纠正base质量分数中的系统错误。在发现突变体的过程中,base质量分数在权衡支持或反对可能的等位基因变异体方面起着重要作用,因此纠正数据中观察到的任何系统性偏差非常重要。偏差可能来源于文库的准备和测序过程、芯片的制造缺陷,或测序器的仪器缺陷。重新校准(recalibration)过程包括从数据集中的所有base calls中收集协变量测定,根据这些统计数据构建一个模型,并基于产生的模型对数据集中应用于base质量调整。最初的统计数据收集可以通过分散到整个基因组坐标进行并行化,通常是通过染色体或染色体批次进行并行化。然后每个区域的统计数据必须被收集到一个单一的基因组范围的共变异模型里;这步不能被并行化,但它在计算上很简单,因此不会成为瓶颈。最后,从模型中获得的重新校准规则应用于原始数据集,以产生一个重新校准的数据集。这与初始统计数据收集的方式相同,在基因组区域上进行并行处理,然后执行最后的文件合并操作,为每个样本生成一个准备好后续分析的文件。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343