机器学习帮助识别乳腺癌诊断和分子分型的生物标记物

摘要:

乳腺癌是一种复杂的疾病,其有效治疗需要负担得起的诊断和分型特征。虽然机器学习方法在临床计算生物学中的使用仍处于起步阶段,但鉴定分子生物标志物的普遍方法仍然是通过差异表达分析筛选所有生物标志物。这些尝试中的许多尝试都使用了miRNA在乳腺癌中的表达数据,并导致该癌症中大量差异表达的miRNA。因此,尚未确定用于分类乳腺癌的最小miRNA生物标记集。诸如癌症基因组图谱之类的多种多样的癌症数据集的可用性促进了患者肿瘤的分子谱分析,并带来了新的挑战,例如根据大数据对临床等级进行解释。在这项研究中,来自TCGA数据库的乳腺癌患者的miRNA表达数据集被用于开发预测模型,从中可以识别出miRNA生物标志物以诊断和诊断该癌症。我利用基于树的分类模型的可解释性的优势来提取其规则并确定该癌症中最少的生物标志物集。获得了乳腺癌中的经验阴性对照miRNA,并将其用于标准化数据集。在我的分析中训练的基于树的机器学习模型使用hsa-miR-139和hsa-miR-183对正常样品中的乳腺肿瘤进行分类,并将hsa-miR4728和hsa-miR190b进行分类,以将这些肿瘤进一步分类为三种乳腺癌的主要亚型。除了提出的生物标志物,还介绍了乳腺癌分类中最重要的miRNA。

Tree-based machine learning algorithms identified minimal set of miRNA biomarkers for breast cancer diagnosisand molecular subtyping

Gene,2018

背景

公认的乳腺癌分类:luminal(estrogen-receptor and/or progesterone-receptor positive,HER2 negative), HER2-enriched(HER2 positive, ER and PR negative) and triple negative tumors (basal) (all receptors negative)

在这里,我着手在免费的乳腺癌TCGA miRNAseq数据集上使用基于树的机器学习算法并发现miRNA生物标记物可对乳腺癌的状态和亚型进行分类。

结果

1.对TCGA miRNA测序数据过滤后分为测试集和训练集

数据筛选:剔除超过10个样品中reads少于100的测序数据,以及测序数据中表型数据不明,缺乏临床信息

2.探索数据分析,检测批次效应

PCA和层次聚类分析探索数据的整体特征:使用患者临床信息中所有变量的相关性,包括主要变量(乳腺癌状态,其内在亚型和分期)以及来自TCGA的种族和性别等其他相关变量,来评估混杂因素的存在。尽管预计第一个主要成分与乳腺癌及其主要受体的状态高度相关,但种族和日期却是混杂变量,显示出与PC1和PC2密切相关。在进行机器学习前,需要移除批次效应。

3.通过DESeq2差异表达分析对乳腺癌进行计算机模拟经验阴性对照

癌症状态和癌症亚型被结合形成六个状态,其中所有的miRNA的统计学显着性测量通过DESeq2软件包进行计算。 p值大于50%的乳腺癌中表达差异最小的miRNA被用作计算机内经验阴性对照,用于以下标准化。即p>0.05的miRNA被用于阴性对照。

4.使用阴性对照miRNA消除变异因素以标准化数据

RUVseq方法用于从miRNAseq数据中删除不需要的变异并进行标准化。 先前从训练数据集中获得的阴性miRNA分别用于训练和测试数据集。 仅训练数据集用于随后的探索性数据分析。通过PCA图和分层聚类进一步探索MiRNAseq归一化计数,以混淆因素并评估生物学效果。 以前发现的miRNAseq数据原始计数中的批处理效应在PC1和PC2中不再明显,而重要的生物学变量(如雌激素受体状态)在主要PC中高度相关。尽管归一化之前样品的分层聚类导致某些癌组织与正常组织的错误聚类,但在去除批效应后,通过归一化计数的聚类分析解决了这一问题(图3)。

5.通过综合少数族裔过采样技术(SMOTE)处理TCGA数据的类不平衡

由于并非所有TCGA肿瘤样本都与它们自己的相邻实体正常组织配对,因此大多数样本都是肿瘤。此外,由于HR +乳腺癌的总体优势,与其他乳腺癌亚型相比,富含HER2的基础型和基础亚型的发生频率较低。这使除了富含HER2的乳腺癌和基底性乳腺癌之外,其他正常情况也属于少数事件,这会影响机器学习模型及其性能(图5. a)。为了缓解此问题,使用了过采样方法(SMOTE),其中通过创建合成样本对少数类别(肿瘤正常分类中的正常病例和富含内在亚型分类的HER2)进行过采样。从正常和亚型鉴定中对肿瘤分类的训练数据集和测试数据集分别进行了此处理。绘制所得训练数据集的PCA图,以确保保留具有不同癌症状态的样品的分离(图5. b)。

6.使用分类树的算法对乳腺癌状态进行建模,获得两个互补的miRNA

三种分类树(random forest, Rpart and treebag)算法对标准化的miRNAbalanced后进行建模分析。计算每个特征在建立分类模型中的重要性,并比较结果以检查哪些miRNA在各个模型中始终很重要。 在所有三个模型中,hsa-miR-139和has-miR-96一直很重要。 同样,从所有三种基于树的机器学习算法中对实体组织正常的乳腺癌肿瘤进行分类的十个最重要的miRNA是hsa-miR-139、96、145、183、592、204、125b.2、21、141和125b .1。从rpart训练模型中提取分类树的简单规则,如图7所示。hsa-miR-139和has-miR-183是区分乳腺癌肿瘤样品和正常肿瘤的唯一特征。 has-miR-193的高表达(> = 421)和hsa-miR-183的低表达(<22e + 3)确保样品正常(图7a)。 尽管此树模型仅使用两个功能,但其在测试数据集中对癌症状态进行分类的性能很高(图7b)。

Fig6

Fig7

7.仅用两个miRNA特征可以对乳腺癌的亚型进行分类

通过随机森林算法对miRNAseq训练数据集的所有肿瘤病例进行分类,以从模型中的所有树木中获得最重要的miRNA。 根据我的模型,用于分类三种主要乳腺癌亚型的最有价值的miRNA是hsa-miR-4728、190-b,342、135b,577、224和375(图8)。

尽管随机森林模型的性能高于rpart,但来自随机森林模型的单个树的信息少于rpart模型的主要树。 因此,我们还应用了rpart模型并提取了rpart模型的规则。像受过训练可以对癌症状态进行分类的人一样,用于对乳腺癌亚型进行分类的Rpart模型也很简单并且提供了很多信息。 富含HER2的乳腺癌样品的特征在于被表达的hsa-miR-4728(<16)。 在没有hsa-miR-4728表达(<16)的样品中,hsa-miR-190b(> 15)的表达将乳腺癌样品分类为腔类型,缺乏其表达(<15)则将其标记为基础。

讨论

1在分类之前消除不必要的变化可改善模型训练和机器学习模型的性能

为了准确推断miRNA的表达水平,对miRNAseq数据进行归一化是典型的。为此,应在分析之前从数据中删除现有的系统变异源。这些变异包括样本差异之间和之内以及除感兴趣的生物变异以外的其他来源所引起的有害变异[16]。批处理效应的消除是标准化的重要方面,但经常被忽略[5]。当生物组没有划分为实验室和技术人员等处理组时,就会出现批量效应。 miRNA测序等高通量技术的优势在于可以提供足够的数据来检测和消除批次效应。 Cava等。在TCGA乳腺癌数据集中,我们将随机森林分类算法应用于miRNA和mRNA表达数据,但是,批次效应的去除被忽略。

在这项研究中,我们使用了TCGA乳腺癌患者临床数据中提供的表格准备日期来证明乳腺癌TCGA miRNAseq数据的批量作用。不用说,该变量只是其他变异来源的替代品,例如测序平台。在数据集中检测到明显的批处理效果可能是因为样品是在不同的实验室(可能是通过不同的测序技术和平台)进行处理和测序的。

不需要的变异的因子分析只能在已知变异来源的情况下进行,并且由于检测到的批次效应不是数据集中唯一的不需要的变异来源,因此我选择借助阴性对照miRNA去除不需要的变异。由于已知阴性对照miRNA的表达与感兴趣的生物学效应无关,因此在实验设计中假定它们的变异是不需要的。对该变异进行因子分析以使miRNAseq表达标准化,并通过在标准化后进行进一步的聚类和PCA分析来确认其去除。我还目睹了标准化步骤后,模型训练和训练模型的性能均得到改善。

2 基于树的机器学习算法为三种基本乳腺癌亚型的分类找到了最少的标记集:管腔型,her2富集型和基础型。

由于乳腺癌是用于生物标记发现的研究最多的癌症之一,因此该癌症中许多差异表达的miRNA已通过miRNAseq数据集的差异表达进行了检测,其中一部分已通过实时PCR进行了验证[24]。这些研究中的假阴性和阳性结果可能分别是这些研究中小样本量和批次效应的结果。由于乳腺癌中存在大量差异表达的miR,因此无法鉴定出最小的miRNA生物标记物集来有效地对乳腺癌状态及其亚型进行分类。以前使用差异表达的研究引入了miRNA的特征来诊断乳腺癌。这些小组包括let-7a,miR-145、205,miR-21,miR-155,miR-191,miR-196a和miR-125b,miR-221,用于诊断组织样本中的乳腺癌。在本研究中,miR-145,miR-21和miR-125是检测到的从非肿瘤分类中重要的miRNA [24]。 Parker等人还提出了50个基因的亚型预测,即微阵列预测分析(PAM50)。通过整体学习,将METABRIC数据集的肿瘤样本分配给先前使用单一分类器方法(PAM50)定义的乳腺癌亚型(腔A,腔B,富含HER2的正常或基底样)。 Bhattacharyya等针对乳腺癌的状态和亚型使用了五种分类算法,并为所有分类测试报告了中等准确度值[27]。这项研究试图确定乳腺癌分类中最少的生物标志物,同时保持分类试验的准确性。 针对这一挑战的拟议解决方案是使用更大的数据集,消除不必要的变异并将管腔A和B亚型合并为管腔亚型。 与提到的研究不同,仅使用了四个miRNA特征来检测乳腺癌并确定其亚型。

3 拟议的miRNA生物标志物在乳腺癌检测和亚型鉴定中的支持证据。

通过基于树的分类方法(图6),从正常的乳腺癌分类中认为重要的所有miRNA(包括用于rpart模型构建的两种miRNA)均已通过实时PCR进行了实验验证,可以在以前的乳腺癌样品中差异表达实验研究[28,29,30]。在癌细胞组织中,hsa-miR-183、592、96、21、141已被上调,hsa-miR-125b.1被下调。此外,在乳腺癌血清样本中还进一步定量了hsa-miR-96和21的上调和hsa-miR-139,145,125b.1的下调[31,32]。

在部分癌症分类模型中使用的两种miRNA生物标志物是抑癌miRNA和oncomiR。 Hsa-miR-139除胃癌外,在胃癌和大肠癌中也被认为是一种抑制肿瘤的miRNA。该miRNA的过度表达已显示出抑制增殖并引起凋亡的作用。用于将乳腺癌与正常肿瘤分类的第二种生物标记物hsa-miR-183是一种oncomiR,它通过抑制整联蛋白来调节癌细胞的侵袭。hsa-miR-4728是rpart分类模型中第一个区分HER2内在亚型的miRNA,它是一种内含性miRNA,位于编码HER2受体的ERBB2基因中[33]。由于该miRNA与宿主基因共转染,因此许多研究报告其在HER2 +乳腺癌样品中的过表达并不奇怪。在rpart模型中,用于区分管腔内在亚型和基础亚型的miRNA生物标记物是hsa-miR-190-b,它被证明是ER +(与ER-相比)乳腺癌样品中最高的上调miRNA [34]。另外,腔A亚型和基底亚型已经与该miRNA的过表达和下调相关。 [35]

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335

推荐阅读更多精彩内容

  • 过去40多年进行大量试验后,科学家在乳腺癌的筛选、治疗、预防等方面取得了巨大成就。超过90%的乳腺癌患者能进行早期...
    亨利福特健康阅读 1,597评论 1 4
  • 早上起来,发现窗外白色覆盖着。看来昨夜的雪下了起来。清晨,依然坐着公交车去上班。因为公交厅离单位有些距离,所...
    superain7阅读 1,150评论 3 1
  • 夏天的时候拍的。 学校的凤凰花总在毕业季如约而至。 用手机拍的,希望上传之后不会太丑吧。
    詹荔子阅读 401评论 3 5
  • 勇者与王者阅读 172评论 0 0
  • 上一周学校活动特别满,又是家长会又是运动会,倒显得团体操排练和主题探究活动有影无踪了。 第四次开家长会,自然没什么...
    撒哈拉C阅读 268评论 0 0