背景:
TMB是指肿瘤突变负荷(tumor mutation burden),TMB已显示出作为多种应用的预测性生物标志物的潜力,包括不同TMB水平与各种癌症患者对免疫检查点抑制剂(ICI)治疗反应之间的关联。比如在黑色素瘤(melanoma)和非小细胞肺癌(non-small cell lung cancer)。
TMB通常由WGS或WES数据(120X-150X)中计算得到,也有一些临床研究显示,TMB能够通过几百个感兴趣的基因(300-500基因)而被估算出来(targeted panel-sequence方法)。
TMB是通过计算编码区每百万碱基(megabase)上的非同义突变(SNV和indels,插入和缺失的碱基数一般小于20bp)数量算出来的,它代表了肿瘤基因组的稳定性和肿瘤微环境中的异质性。
基因组片段中的突变(红色标记)反映在它们通过转录和翻译产生的蛋白质中。一些蛋白质被分割成多肽,然后通过主要组织相容性复合体(mhc)在细胞膜表面作为抗原呈现。如果抗原积累了足够多的突变,它们就可以结合并激活t细胞,然后t细胞就可以启动免疫介导的细胞死亡。
科学家们假设高TMB与新抗原的数量增加有关,新抗原是细胞显示的肿瘤特异性标记物。这些抗原的增加可能会导致免疫系统对癌细胞的检测增加,并使细胞毒性T淋巴细胞更加活跃。T细胞的激活进一步被癌细胞所显示的免疫检查点所调节,因此使用ICIs治疗可以提高患者的生存率。
计算TMB,你需要知道测序区域的总大小(total size of the region sequenced),如果是WES测序,需要知道exome 捕获区域大小,和total mutations(snv和indel)
TMB的类型界定不是很统一,一般有三类:TMB-high,TMB-medium,TMB-low。没有一个固定的标准:比如F1CDx的方法:
TMB-high (≥20 mutations/Mb),TMB-medium (<20 mutations/Mb ≥10 mutations/Mb) and TMB-low (<10 mutations/Mb).
其他过滤条件为: 突变频率大于5%,且tumor样本中深度大于20X,normal 样本中深度大于10X。
也有些研究计算的时候给了个权重:
total number of truncating mutations1.5 + total number of non-truncating mutations1.0.
truncating mutations 是指:nonsense, frame-shift deletion, frame-shift insertion, and splice-site
non-truncating mutations是指:missense, in-frame deletion, in-frame insertion, and nonstop.
Silent mutations被排除在外,因为它没有氨基酸的改变。
保守估计用非同义突变,但也有文章用了全部的somatic mutations。
没有对错,每个人似乎都有自己的计算方式。光TMB的定义都有好多文章:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6353746/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6510391/
https://www.frontiersin.org/articles/10.3389/fonc.2019.01161/full
总的来说,TMB的计算受到5个方面的影响:
- Tumor Cell Content and Sequencing Coverage
更高的肿瘤细胞含量和测序覆盖率对TMB数据的质量起着关键作用例如,与全外显子组测序相比,靶向组可以进行更深层次的测序,具有更高的灵敏度,即使在肿瘤细胞含量较低(定义为10%)的情况下也能表现良好与全外显子组测序相比,Targeted panels已被证明具有更大的覆盖范围例如,最近的一项研究在使用MSK-IMPACT panel时,在所有肿瘤样本中达到了平均测序覆盖率为744x,而WES在肿瘤序列中达到了平均目标覆盖率为232x
- Tissue Preprocessing
通常,在福尔马林固定石蜡包埋(FFPE)方案中,肿瘤组织被固定在福尔马林中,以保持组织和细胞的形态虽然FFPE为长时间储存组织提供了一种经济有效的方法,但必须考虑其对TMB计算的影响这种方法的一个局限性是,它诱导形成各种交联,使DNA链以共价结合在一起,这可能导致胞嘧啶碱基脱氨胞嘧啶脱氨基是下一代测序中基线噪声的主要原因,导致FFPE中最常见的序列伪影(C:G >T: A)。这可能会生成必须在下游流程中删除的工件。
- Sequencing Strategy
WES,WGS,targeted panel based
- Bioinformatics Pipelie
在TMB的大多数计算中,同义变异体和生殖系变异体被过滤掉,因为它们不太可能直接参与新抗原的产生。但在有些pipeline中仍然保留了同义突变。对于计算germline突变,理想情况下,应该对每个患者的匹配的非肿瘤样本进行测序。然而,在临床实践中,这种匹配样本的可用性可能因不同的机构和不同的组织因素而异,数据的不可用可能会抑制对生殖系变异的过滤。在下游分析中对不同变异检测和其他软件的选择也可能影响TMB的最终计算方式。TMB可以通过多尺度深度学习pipeline直接从组织病理图像中计算出来,避免了测序和call 变异的需要。
- Cut-offs
不同的研究分配了不同的边界来描述高TMB状态和低TMB状态。在肺部,超过18,000例肺癌病例的中位TMB为7.2个突变/Mb,约12%的患者显示超过20个突变/Mb。作者发现,肿瘤突变负荷大于或等于10个突变/Mb是联合免疫疗法的最佳受益临界值然而,在其他癌症类型中,高TMB状态被归类为20个突变/Mb。
用maftools得到突变信息:
Tumor_Sample_Barcode Frame_Shift_Del Frame_Shift_Ins In_Frame_Del In_Frame_Ins Missense_Mutation Nonsense_Mutation Nonstop_Mutation Splice_Site Translation_Start_Site total
有人说用GATK CallableLoci to get the exact number of bases.这个方法已经不能用了。GATK4之后就可以用DepthOfCoverage统计每个region上的碱基信息。
TMB和mutational load的区别:
mutational load(突变负荷)更多的是一个群体遗传学术语IIRC,而TMB是专门指的是体细胞变异。
还有一些工具可以直接计算TMB:
varlociraptor https://varlociraptor.github.io/docs/estimating/
moat http://moat.gersteinlab.org/?ref=labworm#!page-usage
ecTMB https://www.nature.com/articles/s41598-020-61575-1
TMBleR https://acc-bioinfo.github.io/TMBleR/
TMB在不同的癌症中:
不同癌症类型的TMB值差异很大,因为体细胞突变的数量可以从每兆基因组的0.01到400个突变。研究表明,黑色素瘤、非小细胞肺癌和其他鳞状癌的TMB水平依次最高,而白血病和儿童肿瘤的TMB水平最低,而其他癌症如乳房、肾脏和卵巢的TMB水平为中等。TMB在不同癌症的不同亚型中也存在差异。由于TMB在不同癌症类型和亚型中的高变异性,定义不同的临界值对于改善生存预测和更好的治疗决定是很重要的。例如,Fernandez等人的研究表明,在TCGA前列腺癌队列中,TMB每megabase的突变范围为0.03 - 14.13个(平均=1.23),而在TCGA膀胱癌数据中,TMB每megabase的突变范围为0.04-99.68个(平均=6.92)。最近的一项研究表明,不同类型的癌症需要不同的临界值,才能找到能够从ICI治疗中受益的患者。此外,理解肿瘤中通常存在不同的细胞簇,即肿瘤异质性是至关重要的,这可以影响TMB,从而影响对ICIs的反应。另一个影响TMB的因素是样本来源是原发组织还是转移组织大多数转移性样本已被证明是单克隆的(即肿瘤中只有一个细胞群),而原发肿瘤通常由更多的细胞群组成,具有更高的整体遗传多样性(更异质性)科学家已经表明,与原发肿瘤相比,转移性肿瘤通常有更高的TMB水平,这可能是由于转移性病变的单克隆性质。
reference:
Xu Z, Dai J, Wang D, et al. Assessment of tumor mutation burden calculation from gene panel sequencing data. Onco Targets Ther. 2019;12:3401-3409. Published 2019 May 6. doi:10.2147/OTT.S196638
Meléndez B, Van Campenhout C, Rorive S, Remmelink M, Salmon I, D'Haene N. Methods of measurement for tumor mutational burden in tumor tissue. Transl Lung Cancer Res. 2018;7(6):661-667. doi:10.21037/tlcr.2018.08.02
Chalmers, Z.R., Connelly, C.F., Fabrizio, D. et al. Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden. Genome Med 9, 34 (2017). https://doi.org/10.1186/s13073-017-0424-2