RNA 和机器学习:多维生物标志物的合理设计
现代肿瘤疗法在过去十年中取得了重大创新。现在是我们致力于使用由合理设计和最新计算方法驱动的生物标志物的时候了。
在医学的早期,新的疗法经常被"意外"发现。几乎没有关于结构或功能的技术知识来指导治疗过程。试验和错误决定着进展,导致缓慢和不可预知的成功。随着我们对小分子、蛋白质及其结构关系的了解的增加,我们进入了合理的药物设计时代。理性的药物设计在肿瘤学领域产生了重大影响,我们在那里积累了对配体结合和生化途径的深刻认识。现代药物战略利用合理的药物设计的框架,在计算实验的推动下,进一步加快潜在治疗鉴定的步伐。
例如,在21世纪初,I型TGF受体(TGF®)激酶的小分子阻滞剂出现了意想不到的竞争。两组人,一个由斯科特·索耶、伊莱·莉莉领导,另一组由尤斯温德·辛格领导,比奥根-伊德克通过不同的努力发现了一个相同的分子。1,2礼来团队使用传统的高通量筛选 (HTS) 酶和细胞检测,既昂贵又耗时。独立地,Singh 的团队通过使用计算方法进行"虚拟筛选"来简化这一发现。这种方法更快,成本相对较低,使生物基因-Idec能够比礼来获得优势。这是一个早期的证明,计算制导设计有可能优先考虑甚至取代昂贵的化学和生物检测,最大限度地减少限制和上市时间。此后,低通量和高通量研究的结果数据库不断爆炸,进一步提高了我们合理开发单体疗法的能力,也提高了双特异性疗法和组合疗法的能力。
预测性生物标志物的案例
...为了实现精密医学的目标,我们需要继续投资合理的生物标志物设计"
生物标志物设计的演变与药物设计的演变没有那么大的不同。即使有最有效的疗法,也不是所有的病人都会做出反应。此外,当将患者与某些疗法进行匹配的过程出现错误时,不良事件可能代价高昂,甚至致命。一段时间以来,该行业一直在努力寻找生物标志物,为将患者与正确的治疗相匹配提供预测性的洞察力。从历史上看,这意味着要确定应该接受或不接受治疗的特定患者群体。
早期,宏观病理特征被用来为患者做出治疗决定,包括癌症。肿瘤等级、大小和位置被记录下来,许多患者的临床结果统计被用来概括谁应该接受治疗,谁不应该接受治疗。组织学,一旦可用,提供了额外的洞察力,使我们更接近分子水平的理解,为什么某些患者的反应,而其他人没有。然而,随着人类基因组计划的完成和基因组医学的出现,医学世界发生了巨大的变化。
基因组医学时代
人类基因组计划的结果不是经常引用的静态参考序列。相反,在里程碑式的努力和完成后不久取得的进展导致了基因组医学的诞生。基因组医学是我们所知道的精密医学的重大突破和重要驱动力,通常定义为正确的患者在正确的时间接受正确的治疗。自人类基因组计划完成以来,被称为高通量测序或下一代测序(NGS)的技术已经从癌症患者的肿瘤组织中生成了数万亿个基因组序列。
不幸的是,早期试图利用这些数据进行合理的生物标志物设计的努力并不像预期的那样有效。该领域严重依赖DNA数据。将DNA中的观测结果与表观遗传学的下游生物影响以及转录和转化修改联系起来,已引起挑战。已经挖掘了大量数据集来识别DNA中的药物靶点和生物标志物,但是单个静态突变的效用却远远不够。有许多突变,我们了解生物影响,如BRAF V600E,但这些突变的存在并不像我们希望在某些药物的背景下预测反应准确。3
用于生成和分析高通量RNA数据的分子和计算工具的进步为生物标志物的发现开辟了一条有希望的新途径。由于RNA离蛋白质水平的下游生物学又近了一步,但可以通过为高通量DNA测序开发的相同技术来测量,因此它可以为患者的分子特征提供丰富而动态的视角。高通量RNA测序已用于确认突变或融合成绩单的表达,具有显著的临床价值。然而,这些单一分析生物标志物,如RNA级的基因融合或突变,在许多方面限制了分析,类似于DNA。他们试图根据生物学的一个方面来预测患者的反应,这是非常简单化的。
多维生物标志物
从理性药物设计书上拿出一页,理性生物标志物设计的逻辑下一步就是提高维度。正如双特异性和组合疗法已经演变为针对多个疾病点一样,生物标志物也应该寻求捕获和利用尽可能多的分子特征信息。早期在结直肠癌中实现这一目标的努力导致了一种新的分子亚型系统。4研究人员还开始建立RNA的"签名",其中包括排名基因列表,以便更好地对患者进行分类。5今天,通过利用机器学习工具,研究人员可以过滤掉大量的噪音,只识别最有用的数据信号来构建所谓的RNA模型。
使用机器学习构建的多维 RNA 模型用于预测性生物标志物优于单分析生物标志物。除了上述分子优势外,利用机器学习构建这些模型提供了一种理性的数据驱动方法,输出是信号的最佳组合。
这种方法要求研究人员将患者档案放在中心位置,捕捉代表疾病、免疫反应、治疗反应等的无数信号。由此产生的生物标志物在探索性研究中比单分析方法的预测准确性有了显著提高,即使在使用预测模型构建的生物标志物新时代的早期阶段也是如此。
接下来呢?
在关于模型疾病的叙述中,人们可能会认为我们谈论的是疾病或癌细胞本身。然而,越来越明显的是,诸如对疾病的免疫反应等因素可以高度预测患者的生存、对传统疗法的反应,当然,对目前一些最先进的疗法(如免疫疗法)的反应。免疫系统的多维预测生物标志物模型是使用一种被描述为预测性免疫模型的方法构建的。与许多模型一样,这些模型有助于捕获生物复杂性并使用数据来预测患者的反应。将来,许多综合生物标志物将需要策划具有元数据、临床数据、结果数据等的多维生物标志物高度标准化的数据库,以便研究人员能够开始从他们所知道的真实中得出结论。
How will today’s biomarkers, built to stratify one patient population, be able to inform another patient population with similar molecular profiles or select for a therapy with a similar mechanism of action? Without a doubt, to achieve the goal of precision medicine, we will need continued investment in rational biomarker design using the most informative molecular and computational tools available today, including RNA sequencing and machine-learning tools.
About the author
Dr Jarret Glasscock is a geneticist and computational biologist. He is the founder and CEO of Cofactor Genomics. Prior to founding the company, Jarret was faculty in the Department of Genetics at Washington University and part of The Genome Institute.
References
Sawyer J, Anderson B, Beight D, Campbell R, Jones M, Herron D et al. Synthesis and Activity of New Aryl- and Heteroaryl-Substituted Pyrazole Inhibitors of the Transforming Growth Factor-β Type I Receptor Kinase Domain. Journal of Medicinal Chemistry [Internet]. 2003 [cited 23 December 2019];46(19):3953-3956. Available from: https://pubs.acs.org/doi/10.1021/jm0205705
辛格 J, 丘基 C, 博里克 - 斯约丁 P, 李 W, 庞茨 T, 科尔布利 M 等人。成功的基于形状的虚拟筛选:发现I型TGF®受体激酶(T+RI)的强效抑制剂。生物有机和药物化学字母 [互联网] 。2003年[引用2019年12月23日];13(24):4355-4359。可用: https://www.sciencedirect.com/science/article/pii/S0960894X03009946?via%3 迪胡布
博南诺L,祖拉托E,阿提利I,帕万A,德尔比安科P,纳尔多G等人1830OLiquid活检作为工具,监测和预测化疗(CT)和免疫治疗(IT)在晚期非小细胞肺癌(aNSCLC)的临床益处:一项前瞻性研究。肿瘤学年鉴。2018;29(suppl_8)。
门特 D, 戴维斯 J, 扫把 B, 超人 M, 莫里斯 J, 科佩茨 S.回到结肠直肠癌共识分子亚型未来。当前胃肠病学报告。2019;21(2).
亚历山大 E, 肯尼迪 G, 俾路支 Z, 西巴斯 E, 丘多瓦 D, 迪根斯 J 等人术前诊断的良性甲状腺结节与不确定的细胞学。新英格兰医学杂志。2012;367(8):705-715.