Application of Artificial Intelligence to Gastroenterology and Hepatology

Catherine Le Berre 等
摘要：自2010年以来，人工智能（A I）在医学上的应用取得了实质性进展。人工智能在胃肠病学中的应用包括内镜下病变分析，癌症检测，分析无线胶囊内镜检查中的炎性病变或消化道出血。人工智能还被用于评估肝纤维化，区分胰腺癌患者与胰腺炎患者。人工智能也可以根据多组学数据确定病人的预后或预测他们对治疗的反应。本文综述了人工智能帮助医生做出诊断或确定预后的方法，并讨论其局限性，了解在卫生当局批准人工智能技术之前需要进一步的随机对照研究。
关键词：深度学习；机器学习；神经网络；消化系统

一、引言

人工智能没有一个单一的定义，人工智能的概念包含了执行与我们人类智能相关联的功能的程序，比如学习和探索解决问题[1,2]。人工智能、机器学习和深度学习是概念上相互交叉的学科（见图1）。机器学习是一个包括了计算机科学和统计学的广阔学科，机器学习程序重复迭代以应对提高特定任务的性能，产生了分析数据和学习描述和预测模型的算法。供训练的数据大多以表格形式组织，其中对象或个人为行，而变量，无论是数值型还是分类型都是列。机器学习大致可分为监督方法和无监督方法，无监督学习的目的是在不掌握群体的数量或特性的先验知识的前提下，根据数据的共性识别群体。有监督学习在训练数据包含每一个对象的输入—输出对的表征的使用。输入包含个体的特征描述，输出包含要预测的感兴趣的结果，要么是分类任务的类，要么是回归任务的数值。有监督的机器学习算法学习这种输入和输出对的映射关系，在新的输出出现时，自动预测它对应的输出[3]。

图1. AI主要概念的时间线.

人工神经网络（ANN）是受大脑神经解剖学启发的监督ML模型。每个神经元都是一个计算单元，所有神经元相互连接，建立整个网络。信号从第一层（输入）传到至最后一层（输出），可能经过了多个隐含层（见图2）。训练神经网络的过程包括将数据划分为一个训练集，该训练集有助于定义网络的体系结构，并找出节点之间的各种权重，然后是一个测试集，用于评估神经网络预测所需输出的能力。在训练过程中，神经网络内部神经元之间的连接权重被不断优化。对更好性能的不断追求导致了复杂的深度神经网络的诞生[4]。

图2. 具有1个输入层、2个隐藏层和1个输出层的ANN的图示。在对输入输出对数据集进行训练时，调整神经元间连接的权重以优化分类能力。训练好的ANN允许将任何新的输入映射到给定的输出（在输出层中表示）.

深度神经网络模型的特点是数个连续滤波器的应用，这些滤波器自动检测输入数据的相关特征，因此深度学习被认为能够有效的学习数据的特征表示。基于深度学习的方法包括了很多种系统结构[5]。然而，所良好性能依赖大量的标记训练数据。研究人员通过将DL与强化学习原理相结合来解决这个问题。
深度学习的一大局限性是过度拟合和缺乏可解释性。由深度学习获得的模型在拟合数据能力上往往比任何其他模型都要好得多，但它们本质上是数据驱动的。如果训练数据不具备足够的多样性，或者含有不明确的数据偏见，那么DL训练出来的模型将无法对现实中的对象进行泛化。另外，深度神经网络也存在黑箱模型的可解释性低的问题。最近的研究旨在提高DNN模型的可解释性，因为它是它们在许多领域，特别是在生物医学应用中被接受的先决条件[7,8]。目前已经有一些关于胃肠病学人工智能的综述研究，但是它们主要聚焦于人工智能辅助内窥镜上[9-11]。在本文中，我们对胃肠病学和肝病学的人工智能对诊断和预后估计的的重要文献进行了综述（见附表1和附图1和2）。

大多数研究使用1个数据集训练机器学习过程，另一个独立数据集测试其性能。一些研究使用常见的验证方法，例如留一法交叉验证[8]。为增加训练数据，一些研究采用了随即裁剪、调整大小、平移、沿任一轴翻转的数据增强方法。数据集包括了阴性和阳性图像的结果。

二、恶性病灶及癌前病变分析

目前已经有53项研究使用了AI来检测恶性和癌前肠道病变（表1）。从方法学上看，其中大部分（48项）集中在内镜上，3项研究使用了提取自电子病历的临床和生物学数据（主要包括人口统计数据、心血管疾病、用药情况、消化症状和血液计数情况），1项研究基于血清肿瘤标志物，1项使用肠道微生物群数据。从部位上看，其中，27项研究致力于提高结直肠息肉或癌症的诊断准确性[12-38].19项研究聚焦于诊断上消化道癌前或恶性病变[39-57]。只有4项研究局限于小肠研究[58-61]。3项研究关注了整个消化道[62-64]。从验证方法上看，其中，24项研究采用特殊的验证方法，主要是K折交叉验证。对于以内镜为重点的研究，训练和测试数据集的大小在不同的研究中差异很大。各项研究的性能表现也是差异巨大的（个人认为主要取决于数据集），但大多数算法的精度达到80%以上。
两项已发表的随机对照实验比较了智能与非智能内镜的性能。第一项研究测试了一种实时深度学习系统（WISENSE）的性能，监测食管胃十二指肠镜检查（EGD）中的盲点。一共324名患者被随机分配到有或者没有WISENSE系统的EGD中。在WISENSE组中，准确度达到了90.4%，其盲点率明显比对照组低（5.9% vs 22.5%）[65]。第二项研究探讨了基于DL的自动息肉检测系统在结肠镜检查中的作用，一共1058名患者被随机分配到有或者没有智能辅助系统的诊断性结肠镜检查中。人工智能系统将腺瘤检出率从20.3%显著提高到29.1%，平均每个病人检出的腺瘤数目从0.31增加到0.53[66]。这些结果表明，人工智能系统可用于提高内镜对胃肠道癌前病变的诊断价值。
除了提高诊断准确性外，人工智能还可以帮助医生确定消化道肿瘤患者的预后。一个基于1219例结直肠癌患者的数据集建立的神经网络与传统的COX回归模型相比，提供了更精确的生存时间和影响因素的确定[67]，并可用于确定患者远处转移的风险[68]。采用人工神经网络模型对452例胃癌患者进行评估，并以大约90%的准确率确定生存时间[69]。在一项对117例II A期结肠癌根治术后患者的研究中，一种基于神经网络的评分系统，根据肿瘤的分子特征，将肿瘤术后患者分为高、中、低危三组，三组患者十年总体生存率和无病生存率差异显著[70]。深度学习预测局部晚期直肠癌患者对新辅助化疗有完全反应的准确率达80%，这项技术可能被用来识别最有可能从保守治疗或根治性切除中受益的患者[71]。另外，一个基于DL的模型可以根据临床、病理数据及治疗方案，预测1190例胃癌患者5年的生存期。该系统的AUC值为0.92，并确定了肿瘤的分子特征与最佳辅助治疗之间的关系[72]。

Table1

Table1 continued1

Table1 continued2

Table1 continued3

三、炎症和其他非恶性病变

AI已经被用于识别炎症性肠病（IBDs）（N=6）[73-78]，溃疡（N=6）[79-84]，脂泻病（N=5）[85-89]，淋巴管扩张（N=1）[90]，和钩虫病（N=1）[91]，两项研究评估了炎性病变患者的内镜检查结果[92,93]。两项研究使用电子病历来确定患者患腹腔疾病的风险，1项研究使用遗传因素来确定患者患IBD的风险。三分之二（21项中的14项）的研究使用K折交叉验证，以避免数据的过度拟合，这21项中有12项研究的患者的患者准确率约为90%。
许多研究已经验证了AI预测IBD患者治疗反应的能力。Waljee等人利用年龄和实验室数据研发了一种机器学习方法，这种方法的成本较低，且比6-硫鸟嘌呤核苷酸（6-TGN）代谢物测定更准确地预测患者对噻嘌呤的临床反应（AUC 0.86 vs 0.60）[94]。然后，他们根据生物标志物、影像学数据和内镜检查结果，改进了之前的ML模型，以预测接受硫嘌呤治疗的患者的客观缓解。该ML模型优于6-TGN水平的测量（AUC 0.79 vs 0.49）[95]。一种ML模型分析了韦多利单抗治疗溃疡性结肠炎患者的三期临床试验数据，与第6周AUC为0.71的粪便钙保护水平相比。AI能够预测哪些患者将在第52周时在无皮质类固醇的前提下实现内镜下缓解，预测性能的AUC值为0.73。因此，韦多利单抗在前6周的益处不明显时，该算法可用于选择患者继续使用韦多利单抗[96]。另外，还有一种人工智能算法，它将微生物群的数据与临床数据结合起来，确定了IBD患者的临床反应，其预测患者抗整合治疗的AUC为0.78[97]。一种神经网络鉴定溃疡性结肠炎患者在细胞置换治疗后，需要进一步手术的敏感性和特异性分别达到了0.96和0.87[98]。
预测IBD发病或进展的人工智能系统也正在研发中。一种分析克罗恩病患者早期活检图像的神经网络在识别疾病进展的准确性达到了83.3%，预测患者需要手术的准确度达到了86.0%[99]。Waljee等人建立一种ML方法分析电子病历数据，预测6个月内IBD相关的住院和门诊病人使用类固醇的AUC值达到了0.87[100]。人工神经网络预测IBD患者临床复发的频率，具有较高的准确性[101]。

Table2

Table2 continued

四、胃肠出血

十二项研究已经被用于验证AI在无限胶囊内镜图像中检测小肠出血的能力（表3）[55，102-112]。12项中的8项研究采用特殊的验证技术，主要是K折交叉验证。在这些研究中，9项研究识别小肠出血的准确率超过了90%。
对于急性上消化道出血或下消化道出血的患者，可通过内镜检查轻松确定出血原因，然而，很大一部分病人有反复出血的情况，这需要重复内镜检查和治疗。因此，ML模型被开发以确定有复发性出血风险的患者和最有可能需要治疗的患者，并估计死亡率。这些模型使用临床和/或生物数据，并以大约90%的准确率识别这些患者[113-117]。一种建立在22854名胃溃疡患者的回顾性分析和1265名用于验证的患者基础上的ML模型，能够根据患者的年龄、血红蛋白水平、胃溃疡、胃肠道疾病、恶性肿瘤和感染来确定复发性溃疡出血的患者。模型确定1年内复发性溃疡出血的患者，AUC为0.78，准确率为84.3%。

Table3

五、肝脏和胰胆疾病

22项研究测试了AI在辅助胰腺疾病或肝脏疾病诊疗中的能力（表4）。其中关于胰腺癌的AI系统有6项，其中5项研究基于内镜超声[118-122]、1项基于血清标记物[123]。这些研究识别胰腺癌患者的AUC约为90%。16项关于肝脏的研究中7项研究旨在检测与病毒性肝炎相关的纤维化[124-130]，6项开发了人工智能策略检测非酒精性脂肪肝[131-136]。2项研究识别食管静脉曲张[137,138]。1项评估患者不明原因的慢性肝病[139]。其中，13项研究使用电子病历和、或生物特征的数据建立算法，3项研究使用弹性成像数据。除2项外，所有研究都使用了特定的验证技术，主要是k-折叠交叉验证。这些模型的精度约为80%。
除了提高诊断准确性外，还需要确定病人预后和预测疾病进展的AI方法。Pearce等人建立了一个ML模型，根据APACHE II评分和C反应蛋白水平来预测急性胰腺炎患者的严重程度。他们模型的AUC值达到了0.82，敏感度87%，特异度71%[140]。Hong等人根据急性胰腺炎患者的年龄、红细胞压积、血清葡萄糖和钙水平以及尿素氮水平，创建了一个ANN来评估患者的持续性器官衰竭，准确率达96.2%[141]。Jovanovic等人开发了一种ANN模型，根据临床、实验室和经皮超声检查结果，识别胆总管结石病患者进行治疗性内镜逆行胰胆管造影术的需求，其AUC为0.88[142]。
Banerjee等人开发了一种基于临床和实验室数据的人工神经网络，以90%的准确性确定肝硬化患者将在1年内死亡的可能性，该模型可用于确定肝移植的最佳候选者[143]。Konerman等人基于临床、实验室和病理组织学数据建立了一个机器学习模型，识别慢性丙型病毒感染肝炎患者疾病进展的最高风险，以及肝脏相关性结果（肝相关死亡、肝失代偿、肝细胞癌、肝移植或Child-Pugh评分增加到7分），该模型在1007名患者的验证集中AUC值达到了0.708。Khosravi等人建立了一种神经网络来预测1168名肝移植患者的生存期。该模型可估计1-5年的生存概率，AUC为86.4%，而Cox比例风险回归模型为80.7%[146]。研究人员还利用人工神经网络将肝脏捐献者与接受者配对，从而提供强有力的决策技术[147]。此外，ML模型可以帮助预测对治疗的反应。Takayama等人建立了一种ANN预测慢性丙型病毒感染肝炎患者对聚乙二醇化干扰素a-2b联合利巴韦林治疗的反应，预测的敏感度达到了82%，特异度达到了88%。

Table4

Table4 Continuted

六、未来的方向

Table5

人工智能将成为胃肠病和肝病学家诊断患者、选择治疗手段和预测预后的重要手段。许多方法都是在这些目标下发展起来的，并展示出不同的性能水准。由于性能指标的差异，很难比较这些研究的结果。人工智能似乎在内镜下特别有价值，它可以增加对恶性和癌前病变、炎症病变、小肠出血和胰胆紊乱的检测。在肝脏学中，人工智能技术可以用来确定患者肝纤维化的风险，并允许一些患者避免肝活检。
我们的综述只涵盖了PubMed中列出的文章，并且可能错过了计算机科学和医学图像分析期刊上的一些出版物。尽管如此，在过去的20年里，人工智能已经成为胃肠病学和肝脏学研究的重要组成部分。尽管本文的综述的重点是辅助诊断和预后，但是其他研究方向的人工智能也正在被探索，例如基于机器学习的内镜质控评估（盲肠标志，机器学习评估检测结肠镜的后续建议），AI在胃肠道领域的应用也在不断被扩大。
值得注意的是，目前的AI技术受的高质量数据集的缺乏所限制。大多数用于开发ML算法的证据来自临床前研究，目前在临床实践中没有应用。此外，DL算法被认为是黑箱模型，黑箱模型很难理解决策过程，阻止医生发现潜在的混杂因素。考虑道德挑战也很重要，人工智能不知道病人的偏好或法律责任。如果发生内镜误诊，谁有责任-内镜医生、程序员或制造商？此外，在确定与病毒性肝炎有关的肝脏纤维化风险时，种族歧视等固有偏置容易被纳入人工智能算法，特别是在肝脏学领域。在开发人工智能模型时，重要的是要考虑这些因素，并在一系列人群中验证模型。医学总是有内在的不确定性，因此完美的预测是不可能的，一些与人工智能相关的研究空白在胃肠学和肝脏学领域仍有待研究（表5）。
在胃肠病学和肝病学方面，人工智能的发展是没有回头路可走的，未来的影响是巨大的。使用人工智能可以增加在发展中地区的人们获得护理的机会，特别是在评估患者患病毒性肝炎或肠道寄生虫病的风险方面。智能手机可以使用人工智能技术远程监测患者的健康，IBD患者居家测量粪便钙保护素的方法已经被建立[149]。人工智能还可以通过从大型患者数据集中集成分子、遗传和临床数据来识别新的治疗靶点。然而，人工智能不会完全取代医生，人工智能仍将辅助医生工作。虽然机器可以做出准确的预测，但最终，医护人员必须根据病人的喜好、环境和道德为他们的病人做出决定。

综述 | 人工智能在胃肠疾病和肝病中的应用