Aperture软件:不依赖比对算法精确检测ctDNA中的结构变异和病毒整合

1 简介

这是中国医学科学院王晓月教授课题组2021年11月发表于《Briefings in Bioinformatics》上的一篇文章,主要介绍了新开发的ctDNA结构变异检测软件Aperture。ctDNA中SV和病毒检测是肿瘤精准医疗中的重要步骤,它有助于癌症监测和治疗方案的选择。由于ctDNA片段较短,在检测低频SVs以及复杂SVs时存在极大的困难。这篇文章介绍了Aperture软件,一种快速的SV 检测软件,它利用k-mer进行搜索、二进制label进行断点检测及断点聚类、利用UMI进行consensus。通过对ctDNA模拟数据、标准数据集、真实数据集的测试,Aperture软件相对于其他SV软件具有较高的灵敏度和特异性,特别是在跨越断点的重复区域。具体代码和说明见:https://github.com/liuhc8/Aperture

2 背景

1、大多数依赖于比对的SV检测软件:GRIDSS、Lumpy、SvABA、DELLY、CREST,利用配对reads或者部分序列(softclip)比对到不同位置进行SV检测。由于ctDNA片段较短,依赖比对的SV 检测工具在检测复杂SVs变异,特别是重复区域变异时存在很大的困难。目前的比对软件 BWA 在基因组重复区域的比对并不高效,不一定会输出最高质量的比对结果,这也限制了依赖比对的SV检测软件获得正确的断点信息。
2、Aperture 软件输入为原始的FASTQ文件,采用k-mer依赖的方法在3个不同的库中进行快速断点查找。断点快速检测采用的二进制标签的方法。最终输出结果包括断点位置,分子数,比对质量值这些信息。
3、Aperture在与SV caller 进行对比时,在稀释至0.1%-10%范围内都有较高的灵敏度和特异性。在三个真实cfDNA数据集中,Aperure 检出了其他工具没有检出的HBV病毒整合到TERT启动子区域的位点, 并且检测到了包括重复序列区域的重排变异。Aperture 采用JAVA语言编写,并采用了多线程的方式。

3 算法实现

3.1 算法过程

(1)将参考基因组分成2500bp的大小,首先构建基因组 23-mer 序列与二进制labels相对应的文库,记录基因组的位置信息,如果基因组区域23-mer文库序列不唯一,构建41-mer文库和间隔种子序列文库(含有通配符可以精确匹配更长的重复区域)。参考基因组kmer库只需构建一次,后期可以多次使用。如图1 A所示
(2)由于ctDNA片段较短,PE reads 先进行合并,然后再切 23-mer 与23-mer文库、41-mer文库、spaced-seeds文库进行比对。(确定reads在基因组的大致位置)。如图1 B所示
(3)bitwise AND这个类似于局部比对,能找到发生融合reads。如图1C 所示
(4)对融合位点相同的reads进行聚类,并根据聚类信息,去除测序错误、PCR错误以及突变。如图1DE所示
(5)为了提高特异性,会对所有k-mer的比对质量以及支持k-mer的reads数量进行评估


3.2 k-mer文库构建

(1)构建基因组和反向互补基因组 23k-mer库,并进行排序。排序时为了减少内存限制,连续的3个k-mer,只取第一个进行排序。
(2)除了k-mer,每个k-mer对应的基因组位置也进行了排序
(3)将参考基因组分割成30000-65000bp的长度(Bloom Filter),随机给每个segment分配一个32-bit的二进制label(含有5个1),记录每个k-mer相对于segment的偏移量,精确记录基因组的位置。为了排除k-mer查找时,基因组突变的影响,dbSNP数据库也加入了23-mer的文库。
(4)对所有的k-mers文库进行快速排序、去重。

3.3 reads过滤,reads合并,k-mer依赖的结果查询

对低质量的reads进行过滤,对PE reads进行合并,在k-mer字符串查找时也采用了加速算法

3.4 SV 断点的检测和候选reads聚类

通过上一步的k-mer查询可以获得reads的归属位置,如果一个reads含有不同的片段,就会对reads进行记录,同时对所有相同断点的reads进行汇总。去除测序错误、PCR错误以及突变。如图2所示


3.5 根据barcode过滤cfDNA数据

这里定义基因组结构变异为整合或插入缺失的基因组片段要大于50bp,所以Aperture软件对小于50bp的序列进行了过滤。对于没有SR支持的序列,VCF文件中标记为了“FAKE_BP”,这些可能是重复区域的假阳性融合。
C :含有不同barcode序列的分子数
U :只含有一条reads支持的barcode分子数
R=(C-U)/2 :用于评估聚类的可靠性

4 结果

4.1 模拟ctDNA数据集各软件的比较

1、利用RSVSim(R包用于模拟结构变异)软件进行模拟cfDNA 融合数据。Wessim2 软件用于模拟捕获数据。在10%稀释数据集中,Aperture 有最高的灵敏度(77.5%)和最高的精确度(91.1%)。Aperture 有最高的F1-score(0.838)。在1%稀释数据集中,Aperture同样有最高的灵敏度和精确度,以及最高的F1-score。如图图3AB所示。
2、在10%稀释数据集中,Aperture检出了14 个独有的真阳性变异。这些reads支持中含有不完整的断点支持,只有一端有断点支持。这些独自检出的变异中还有一些断点处于重复区域,这些归因于Aperture采用了独特的k-mer查找的方案,搜索了三个不同的文库。Delly检测到了23个独有的真阳性变异,其中21个是倒位(INV),仔细核查原因后是Delly软件对倒位的要求较低。如图3C所示。
3、为了检测Aperture软件在超低频的表现,构建了稀释至0.8%,0.6%,0.4%,0.2%,0.1% 的梯度稀释数据集,Aperture都表现良好。如图3DE所示
4、在真实数据集和模拟数据集中,Aperture 需要较少的计算资源,但是能达到较快的速度。这些还是在不包括比对和排序的情况下。



补充PPV和灵敏度及F1-score的计算方法:

4.2 标准数据集中的表现

HD786的检测,能检测到两个大于50bp的SLC34A2/ROS1 和 CCDC6/RET 融合。

4.3 肺癌病人中ALK 融合的灵敏度和特异性用于癌症病人治疗监测

为了检测Aperture在真实癌症病人中的表现,对非小细胞肺癌患者的EML4-ALK 融合进行了检测。在这个研究中,患者接受了ALK抑制剂克挫替尼的治疗,文章对接受药物治疗到发生抗药性阶段的5个时间点进行了取样观测,所有样本都进行了UMI 超高深度测序。A1阶段是刚确EML4-ALK 阳性肺癌并接受药物治疗的阶段,Aperture, Lumpy, Delly and SViCT 对融合都进行了检出。但是,GRIDSS 初始结果检出,但没有通过他们的过滤条件。SvABA 和 CREST 在初始结果中都没有检出。A2阶段是接受克挫替尼治疗20天,Aperture和一些软件还可以检测到,这一阶段血清中的融合的比例较大的下降。在A3阶段所有样品都没检测到融合。在A4阶段,只有Aperture检测到了新的EML4-ALK(E20:E1)融合。在A5阶段,发生了药物抗性,所有软件都没有检测到EML4-ALK融合。在特异性方面,Apeture 获得最少的总支持数,具有较高的特异性。


4.4 检测肺癌病人样品中的复杂NTRK融合

NTRK 融合基因最近成为癌症免疫治疗的靶标,利用2例肺癌病人的血清,评估了对NTRK基因的检测。如表2所示:其中B1样本,TPR-NTR1融合所有软件都进行了检出。B2样本只有Aperture和GRIDSS软件能检出LMNA-NTRK1融合,通过对融合reads进行比对发现LMNA-NTRK1融合对儿包括9bp的插入序列和30bp的重复序列,如图4所示。其他SV callers 软件没有检出的原因可能是,比对软件会将重复区域序列判断为低比对质量,对该比断点进行过滤。此外,LMANA 基因并不在panel 的捕获范围内,reads覆盖会更低,更增加了检测的难度。


4.5 在肝癌cfDNA样本中检测整合至TERT基因中的HBV序列

HBV序列整合至癌症相关基因,在促进肿瘤发生过程中具有重要的作用。为了评估Aperture在病毒整合方面的表现,选择了3个肝癌病人(HBV整合在TERT基因)的血清进行检测。cfDNA 数据集使用针对TERT 启动子区域的panel 进行检测。与基因组SV检测不同,HBV病毒的基因组需要事先包括在参考基因组序列中。
如表3所示,Aperture、Lumpy 和 Delly 都有HBV整合检出能力,只有Aperture软件在3个样品中对HBV-TERT整合都进行了检出。


5 讨论

1、由于测序错误和错配,依赖比对的SV 检测方法可能会产生较多的假阳性,特别是在重复序列区域。为了提高检测的准确性,Aperture采用了独特的k-mer搜索的方法用于断点的检测。与构建单一的k-mer文库不同(ChimeRscope软件),文章构建了三个不同长度的k-mer文库用于k-mer的搜索。如果一个read 覆盖了重复区域,较短的k-mers不能进行匹配时,会采用较长的k-mers 重匹配到41-kmer文库和间隔种子文库。考虑到比对过程中会有错配的干扰,文章还构建了23-mers包含SNP位点的文库(db-SNP包含了已知的变异位点)。
2、与为所有区域分配所有可能的K-mer来源不同(这种情况重复区域会消耗大量的内存),文章开发了一种唯一固定二进制标签的系统。在这个系统中,Aperture可以检测断点用novo-kmers(无重复) 和 重复k-mer。NovaBreak 只能检测novo-kmer,一般的融合在断点处至少有k个nova-kmers,但是对于重复区域的融合,novo-kmers 数量会严重下降,这时可以利用重复k-mer来确认断点的位置。对于重复区域,Aperture软件会选择跨越重复区域,直到确认唯一的基因组位置为止。
3、依赖于组装的SV检测方法具有广泛的用途,这是因为较短的reads可以组装成较长的contig,这样可以更准确的比对到基因组,使SV检测更加灵敏。但是,ctDNA长度比较短,只有166bp,组装的方法不适用于ctDNA数据的检测。此外,序列组装会消耗大量的计算资源。

6 参考文献

[1] Aperture: alignment-free detection of structural variations and viral integrations in circulating tumor DNA. Hongchao Liu, Huihui Yin, Guangyu Li, Junling Li, Xiaoyue Wang. Brief Bioinform. 2021;bbab290. doi:10.1093/bib/bbab290

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容