背景
肿瘤基因组学目前面临的挑战之一是将肿瘤形成过程中所涉及的基因组变化(即驱动因素)与对癌细胞没有任何益处的基因组区分开来。癌症形成的过程中驱动基因(即那些带有驱动因子变化的基因)给予肿瘤形成过程自然选择的优势,因此可以通过检测肿瘤中的阳性信号来鉴定驱动基因。
为了找到驱动基因,研究者们开发出一系列的肿瘤驱动基因软件和整理了很多数据库。现在简单地介绍下这几个软件
驱动预测软件
目前这些预测软件使用的方法可以分为三大类:基于基因功能算法、基于突变聚类方法、基于频率的算法。
1.基于频率的算法:
基于癌症驱动基因比其他基因的突变频率较高这一原理,使用统计算法计算出高频突变频率高于背景突变频率的基因为癌症驱动基因,这类方法在现有报道中较为常用。
2.基于突变聚类的方法:
通过检测基因间显着聚集在氨基酸序列特定区域的突变的基因,发现可能的驱动基因。
3.基于基因功能的算法:
根据突变基因对应的蛋白信息构建基因突变有害性的评价模型,最终将有害性较高的基因认定为驱动基因。
主要原理介绍
其中MutSigCV考虑了肿瘤异质性,寻找相对于背景突变的高频突变。MutSigCV根据突变信息建立一个突变背景模型,根据模型判断每个基因的突变是否比偶然突变更显著。
下图左侧显示了一组染色体,每个染色体来自不同癌症患者的肿瘤。基因分别为彩色条带,并且体细胞突变由红色三角形表示。如图所示,所有肿瘤的突变可以通过折叠聚集在一起,并且可以计算每个基因的突变总数。然后将此计数转换为分数,最后根据前期构建的突变背景模型计算其显著性。之后通过阈值来控制假阳性率(FDR),并且超过该阈值的基因为阳性突变。
驱动基因预测的主流方式是寻找高频突变基因(SMG),但是也有局限性,OncodriveCLUST是基于蛋白编码破坏程度的预测方式,是驱动基因检测的补充。OncodriveCLUST分析软件利用驱动突变在位点分布上具有形成突变簇的偏好性以及利用同义突变无偏分布的特点构建背景突变模型,寻找可能的驱动突变。具体算法如下:
i表示簇内的蛋白质位置,fractionMutations是落在该位置的突变的百分比,dist是跨越i的氨基酸的数量。以及具有最大突变数的簇的位置,通过对所有簇的得分求和来获得基因聚类得分。最后,通过将其与计算编码 - 沉默突变的所有基因聚类得分获得的背景模型分布进行比较,来估计观察到的基因聚类得分的显着性。
OncodriveFM(functional mutation)是根据功能突变有害性进行预测,即如果基因发生了影响功能域的突变,则该基因可以作为候选的驱动基因,并且有研究结果也表明高频突变和已知的驱动基因具有较为明确的FM (功能突变)偏好性。具体方法为:
如上图所示:第一步包括计算一组患者中鉴定的突变的FI评分,接下来,Oncodrive-fm评估每个基因是否存在对具有高FI(FM偏差)的突变,结果得到P - 每个基因的值。同时Oncodrive-fm也可用于评估基因model的FM偏差
基于TCGA数据使用三种方法的对比
分别使用OncodriveFM(功能影响标准),OncodriveCLUST(突变聚类标准)和MutSig(突变频率标准)描绘在CGC数据库中注释的基因,白色Not assessable表示无法计算功能影响的基因(OncodriveFM)或无突变簇的基因(OncodriveCLUST)
从比较的结果看出,OncodriveCLUST、MutSig、OncodriveFM可以互相发现一些其他检测方法忽略的基因,因此在检测肿瘤的驱动基因时建议使用基于不同原理的软件综合检测。
参考文献
Dees N D, Zhang Q, Kandoth C, et al. MuSiC: identifying mutational significance in cancer genomes[J]. Genome research, 2012, 22(8): 1589-1598.
Tamborero D, Gonzalez-Perez A, Lopez-Bigas N. OncodriveCLUST: exploiting the positional clustering of somatic mutations to identify cancer genes[J]. Bioinformatics, 2013, 29(18): 2238-2244.
Mularoni, Loris, et al. "OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations." Genome biology 17.1 (2016): 128.