关于肿瘤突变负荷(TMB)与panel设计--part2

续言

       在这个转化医学专题的第四篇文章——《肿瘤突变负荷(TMB)与panel设计--part1》中,一方面只做了4个模拟panel,panel大小和用于模拟的基因来源都比较有限;另一方面只展示了增加gene的结果,缺少downsample层面的内容;最后也缺少一个明确的结论。再加上最近国内有研究报道肺癌上150 gene的panel,其tTMB与WES数据以及bTMB与tTMB之间均能达到很好的相关性,甚至还可以有效评估免疫治疗的疗效!这与国内外相似的TMB模拟研究结论相差甚远。接下来就对以上遗留问题进行补充回答。

一. 扩大gene范围并增加基因数目梯度进行模拟

1.1. 用于模拟的基因集合选取

a. 业内同行相关产品:FMI+MSK产品中的基因和基因表达免疫panel

b. CIVIC数据库

c. 2018年以来的4个肿瘤基因组学研究数据:遗传性肿瘤(cell1,cell2),drivergene(cell文章报道的299个驱动基因),HRDDNA损伤修复中的同源重组缺失信号通路基因)和cas9抗癌药物靶基因筛选

d. 以a,b,c做核心gene集合,随机引入基因组中其它基因迭代;

1.2 以上五个基因集合共有基因比较

在遗传性肿瘤和免疫panel以外的五个基因集合范围内:三个集合共有基因:167个,四个集合共有基因:51个,五个集合共有的基因只有3个:ATR,BRCA2和ERCC2(# 以基因名称而非位置进行比较,忽略误差) 具体见图1

图1: 五个基因集合比较

二. 10个模拟panel在32个癌种上与WES数据TMB的相关性比较

2.1  将模拟基因集合从原来的500个~800个的3个梯度,扩展至500个~3000个gene的10个梯度

TMB计算方式沿用上一篇文章,10个梯度的模拟panel在32个癌种上与WES数据TMB的spearman相关数据见图2,波动情况见图3。

图2:10个模拟panel在32个癌种上与WES数据TMB相关系数热图
图3. 10个模拟panel在32个癌种上与WES数据TMB相关系数波动情况  

2.2 本次模拟结果显示:

a.对于皮肤黑色素瘤、肺腺癌和子宫内膜癌,500个gene规模的panel(522 gene,FMI+MSK),其TMB已经能够很好的代表WES数据结果,spearman相关>=0.9;

b. 体外肿瘤细胞系上cas9筛选得到的628个候选抗癌药物靶基因单独作为一个panel,其TMB与WES数据的相关性在大部分癌种上都较差,结合venn图中的基因交集比较,进一步显示体外细胞系与病人癌细胞的真实状况差别较大;

c. panel越大其TMB与WES数据相关性越高,但对于葡萄膜黑色素瘤等十多个TMB与WES相关性较差的癌种,其TMB方面的研究应该不是panel能够应对的;

三. 模拟panel的downsample分析


        如果能从现有panel包含的gene范围内,通过大规模的迭代优化,找到比原来整个基因集合更有代表性的部分子基因集来计算该癌种的TMB,相较于重新开发一个更大的panel,似乎是一个弯道超车的好办法?


       从以上10个模拟panel中选取FMI+MSK,Mimic579和Mimic1328三个,以50个gene为数量级(感兴趣也可以尝试以exon为单位写程序迭代),从100个gene开始:设定 100 gene、150 gene、200 gene至模拟panel规模的不同梯度,每个梯度上迭代计算1021次,每次迭代均输出基因集合,样本TMB值以及相关分析结果。经过4万多次计算,最后以各子基因集与WES数据的spearman相关结果为准,分别选取top1和top20的结果,从以下三个方面进行downsample层面的TMB比较:

3.1. 最优子基因集与原始基因集合的TMB与WES数据相关性;

3.2. top20的子基因集中基因数目与其TMB相关性数值分布的比较;

3.3. 最优子基因集与WES以和原始基因集合TMB波动性的比较。

3.1 最优子基因集与原始基因集合的TMB与WES数据相关性比较

图4. 最优子基因集与原始基因集合TMB与WES数据相关性比较热图  

     本次选取的FMI+MSK,Mimic 579和Mimic1328三个模拟panel,经过大规模downsample迭代得到的最优基因子集,其TMB与WES数据相关性相较于原始基因集合,在32个癌种上均可获得不同程度的提升。

图5. 最优子基因集与原始基因集合TMB与WES数据的分组结果 

与 FMI+MSK和Mimic 579 这两个500个gene规模的panel相比,1000个基因规模的Mimic1328 最优基因子集的TMB与WES数据的相关性在32个癌种上均趋于稳定;

图6. 最优子基因集与原始基因集合TMB与WES数据的整体结果

 FMI+MSK和Mimic 579最优gene子集的TMB与WES数据的相关性在部分癌种上可以超过Mimic1328的原始gene集合, 但32个癌种上都无法超越 Mimic1328的最优子集;

图7. FMI+MSK,Mimic579 以及 Mimic1328各自top20的子基因集TMB在32个癌种上的比较  

在间皮瘤等panel与WES 数据 TMB相关性较低的癌种上,top20子gene子集与WES数据TMB相关性数值分布波动较大;

3.2 top20子基因集中基因数目与其TMB相关性分布比较


从32个癌种中选取常见的18个癌种,对FMI+MSK,Mimic579 以及 Mimic1328三个模拟panel top20 gene子集中的基因数目与其TMB相关性数值的分布情况进行比较。


图8. top20子基因集中基因数目与其TMB相关性分布的比较

对常见的肺鳞癌和肺腺癌,top20最优子集中基因数目仍在500个左右,而对于乳腺癌以及皮肤黑色素瘤,约300个的基因就达到与原500多个基因相似的TMB相关性( 对于乳腺癌,300-500个基因的panel,其TMB的 spearman 相关系数均不高,0.62~0.65,鉴于乳腺癌方面用于预后评估的基因表达panel——Oncotype DXMammaprint等推进很快,或许对乳腺癌来讲,二维层面的基因表达调控相较于一维层面的DNA序列突变更值得关注)

3.3 最优子基因集与WES以及原始基因集合TMB的波动性比较


       FMI+MSK,Mimic579 以及 Mimic1328三个模拟panel downsample得到的最优子gene集虽然相关性都优于原始基因集合,但理论上基因集合的减小会引起实际个体层面波动性的增加,因此需要对TMB数值层面的稳定性进行进一步的比较:

      选取 FMI+MSK downsample结果中的top1的肺腺癌和皮肤黑色素瘤,Mimic579 downsample 结果中top1的肺鳞癌和乳腺癌的模拟结果,仍以1为单位,在TMB 从5.5到16.5的11个固定区间外,引入TMB<5.5和TMB>16.5,共13个TMB细分区间,选取以上4个癌种分别落入13个区间中的病例数目在15个以上的部分区间,通过对WES,原始基因集合和downsample的 top1子集三组TMB数值的均值比比较来衡量最优子集得到的TMB的稳定性情况。


图9.  FMI+MSK的 top1子集在肺腺癌的6个TMB区间内的稳定性比较:5.5-6.49; 6.5-7.49; 8.5-9.49  ; 9.5-10.49 ; TMB<5.5和TMB>16.5
图10a Mimic579的 top1子集在肺鳞癌的5个TMB区间内的稳定性比较
图10b  Mimic579 的top1子集在肺鳞癌的5个TMB区间内的稳定性比较 


图11a.  FMI+MSK的 top1子集在皮肤黑色素瘤的4个TMB区间内的稳定性比较
图11b.  FMI+MSK的 top1子集在皮肤黑色素瘤的4个TMB区间内的稳定性比较  


图12  Mimic579 的top1子集在乳腺癌的2个TMB区间内的稳定性比较 

       对以上4个癌种17个TMB区间分析显示,与原始基因集合相比,虽然downsample 后的top1 gene子集的TMB与原始基因集合的TMB整体无差异,( p value在17个区间中的16个都大于0.05),但是与WES基线相比,p value均有减小的趋势,也就是与WES基线的差异增大了。可以推断downsample后的其它top1基因集合在其它癌种上的稳定性也是下降的。那么500个gene层面的panel,其downsample后的结果又一夜回到解放前了— — 相关系数会变得好看,但实际上不稳定性却增加了;而更大的1000个gene层面的panel,从downsample后top1的子基因集合在32个癌种上的TMB趋于稳定,以及top20基因集合中的基因数目还都维持在1000个左右来推断,其子基因集合在对应癌种类上的稳定性应该受影响不大,具体但还需要补充分析。

4. 总结

      抛开体外细胞系上cas9筛选抗癌药物靶基因的特例, 单从TMB研究的角度看:对于肺腺癌、皮肤黑色素瘤和子宫内膜癌,500个基因左右的panel性价比已经较高;对于直肠腺癌、卵巢癌这些癌种,1000个基因左右的panel应该才会有较好的预测一致性;而对于前列腺癌等癌种研究,或许其发病机制本就不在DNA一维序列(仅外显子区域中的SNV/INDEL)层面。另外,对于大Panel TMB的可靠性,不能单看基因数目的多少——除非该大panel是全外显子设计而非热点突变密度设计


                                                                                                              写于2019年5月19日

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容