胃肠胰(GEP)神经内分泌肿瘤(NENs)的诊断模型



工作中遇到的文献,反正都要看,顺便做个笔记,文章影响因子不高,重点是思路和方法,文章方法上用了支持向量机(SVM),线性判别分析(LDA),KNN临近法,贝叶斯法(Bayes)。(深感简书排版难用,大概是我不会用吧~)

摘要:

胃肠胰神经内分泌瘤的发病率和患病率在增加。此类病的延迟确诊很常见,CgA单一指标诊断是不准确的。文章中通过三个微阵列数据集的计算分析来鉴定NEN,样本包括NEN组织15例,NEN外周血7例,腺癌363例。在130份血液样本(NENS63例),中检测候选基因,在两个独立组中验证,第一组n=115,NENs=72,第二组n=120,NENs=58。对176份样本进行了CgA比较。基因分类其在独立的集合中检测到NENs,具有高度敏感性(85-98%),特异性(93-97%),PPV(95-96%)和NPV(87-98%)。比较来说分类器的AUC为0.95-0.98,CgA为0.64,分类器比CgA更准确。在亚组分析中,胰腺和肠胃中具有相似的效果(79-88%敏感性,94%的特异性)。


材料:

人类癌症和正常微阵列数据集:数据库地址为http://www.ebi.ac.uk/arrayexpress

延伸:数据库文献:Parkinson H, Kapushesky M, Kolesnikov N, Rustici G, Shojatalab M, et al.(2009) ArrayExpress update–from an archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids Res 37: D868–872.doi:10.1093/nar/gkn889

GEP-NEN数据1:包括小肠组织3例,原发性GEP-NEN6例和转移性GEP-NENs3例。

GEP-NEN数据2:包括正常回肠粘膜6例,原发性中肠3例,肝转移3例。

公共癌症微阵列数据集:三个肝癌细胞癌数据集:酒精性HCC(n=65),病毒性HCC(n=124),进展性HCC(n=75);乳腺癌(n=86),结肠癌(n=47),前列腺癌(n=154),正常人体组织(n=158)。

此外还检测了外周血基因表达,为此检查了14个样本(对照7个,GEP-NENs7个)。

分析方法:

训练组:130份血液样本,对照组67例,GEP-NENs63例

独立验证集:第一组:115例样本。对照组43例,GEP-NENs72例;第二组:120例样本,对照组49例,GEP-NENs71例。

(实验中的方法不是我关注的点,我就一个数据分析的娃,真的不懂也不care那些,担心翻译错了,觉得有用或者感兴趣的娃,可以自己看)

分类算法:基因表达值log转换到1-100之间。采用10折交叉验证设计,在训练数据集上进行建模。在内部训练集中,差异表达基因用t检验。利用上调特征(ps:此部分不知道为什么选择上调的基因)对四种不同的学习算法包括支持向量机(SVM),线性判别分析(LDA),K临近分析和朴素贝叶斯(Bayes)进行内部训练。为了控制过拟合,在2个验证集中进行验证。对照样本和GEP-NEN的一致性标签是通过多数票方法产生。

详细介绍:

1.候选基因的选择

1.1基因共表达网络: 比较GEP-NEN和其他癌症数据集之间的共表达网络分析,此外还用GEP-NEN和正常人体数据集(79种不同的的健康组织和细胞类型,共计158个阵列)比较,以消除由于健康组织可能发生的共表达。GEP-NEN基因共表达网络:1)保留GEP-NEN数据集中重复的共表达对,2)从GEP-NEN网络中消除其他癌症和正常组织的基因共表达,3)消除GEP-NEN-A,GEP-NEN-B网络不同变化的基因。

    该分析产生了2892个基因和30444个共表达,我们关注的是这个网络中最大的连接组件(2545个基因的30249个连接),其中包含了99%的共表达信息。重要的是基因共表达网络不试图识别“直接基因相互作用”,二是包含“基因邻域关系”,这在传统的微阵列分析中常被忽略,并用来识别在共同途径或生物过程中发挥不同作用的基因。因此,共表达网络的功能表征应该被视为一种描述性分析,旨在产生附加的假设检验。

1.2GEP-NEN基因共表达网络功能分析:为了深入了解GEP-NEN网络部获得分子通路,使用DAVID富集相关通路。Integration of energy metabolism富集到58个基因,p=4.2*10^(-5);Diabetes pathway富集到68个基因,p=2.7*10^(-4);Pathways in cancer富集到72个基因,p=0.003,其他途径包括免疫反应,神经系统发育和代谢。之后使用Louvain算法,通过模块化最大化将阶段迭代分组区域中,将GEP-NEN网络划分为62个簇,分别在最大和最小的簇中有800个和3个基因。

补充:Louvain算法

1.3Marker基因的选择:我们产生了三个推测的标记基因面板,通过RT-PCR进一步检测:1)组织,2)外周血,3)文献,此处要看补充方法了。后边有时间加上。为了生成给予组织的基因面板,我们在GEP-NEN-A和GEP-NEN-B数据集中发现了显著上调的基因,摒弃保留了GEP-NEN基因表达网络中也存在的基因。随后,我们保留了具有高网络聚类系数的基因,基于他们与肿瘤发生关联的可能性增加。最后,查找了一组369个基因,这些基因通过阈值过滤,和文献手动搜索,搜索标准:A)神经内分泌瘤,B)肿瘤形成,C)转移。369个基因中21个被选择用于PCR。14个外周血样本(n=7个对照组,n=7个GEP-NEN组成),1382个上调基因,仅保留GEP_NEN-A,GEP_NEN-B阳性的,产生306个假定的标记基因。手动文献搜索,查找与内分泌生物学或者是内分泌肿瘤相关的基因,确定了32/306个PCR验证的靶点。

    文献中查到的基因共22个,13个标记基因在之前报道中与GEP-NEN相关,另外9个和肿瘤的发生和转移相关。在这些分析的基础上,选择了75个假定基因,做PCR分析。

2.在测试集和独立集中验证GEP-NEN标记的基因

    为了验证“假定”标记面板,测量了从训练子集(对照49个,GEP_NEN28个)中分离出的mRNA的转录水平。这表明75个候选标记中有51个在血液中能产生可检产物。使用51个标记基因识别GEP-NEN,将GEP-NEN分类器建立在训练集(对照67个,GEP63个),用t检验计算对照组和肿瘤病理的显著性,采用四种分类算法(SVM,LDA,KNN,Bayes)和10倍交叉验证设计,建立了GEP-NEN诊断分类器。支持向量机的精度为0.89(0.85-1.0),LDA算法0.89(0.86-0.93),KNN精度0.88(0.85-0.93),Bayes精度0.86(0.85-0.93)。3中分类器的投票组合准确率为0.88。为了控制过度拟合和评估分类器的性能,我们检查了两个验证集,验证集敏感性为85%-98%,特异性为93%-97%,PPV为95-96%,NPVs87-98%,第一和第二个验证集测试AUC分别是0.98,0.95。

    51个标记基因和Chromogranin A对GEP_NEN的识别比较。为了检查外周血PCR特征的效用,我们将其与一组176个样本的组中CgA的测量结果进行比较,与对照组相比,GEP-NEN中CgA升高P=0.002。采用19Units/L作为临界值,敏感性为32%,特异性99%,PPV96%,NPV63%。正确率为68%。PCR的方法比CgA的方法更准确。特异性相似(94%vs99%),敏感性高于CgA(85%vs32%)。

3.GEP_NEN标记基因的额外作用

    为了进一步评估标记基因的潜在作用,检查前神经基因和胃肠道神经基因的敏感性和特异性是否存在差异。以及是否可以检测到非转移性肿瘤。此外我们还想测试在低CgA表达患者中表达如何。我们分别见擦了每个验证集以及两个集的组合。识别P-NENs性能指标:敏感性为64-100%,特异性为92%=95%。43个胰腺癌种特异性为94%,95例胃肠道肿瘤中特异性为94%。两者没有显著性差异,表明PCR检测在两种癌种中结果相似。

    对转移瘤的评估发现,中的敏感性和特异性85%,11例无转移瘤患者中91%为阳性,特异性94%,不论是否转移,PCR都能很好的鉴别出患者。

    176个CgA样本数据集使用19U/L为临界值,确定了55名低CgA患者,50例患者的PCR评分为0.2分(91%)。在26例CgA升高的患者中22例(85%)PCR评分升高。PCR评分显著高于CgA。

搞完了,都没看懂他的样本到底怎么用的

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容