摘录于别人,记录一下阅读的文章,待文章出来后整理
对于大部分临床医生来说,往往是没有能力去做基础科研的,因为没有时间、经费和实验室。但是每家单位对文章的要求又是这么强硬,没有文章就无法进职称,该怎么办?
临床医生最大的优势就是手握第一手的临床资料,比如此次新冠疫情,最初掌握的临床资料已经衍生出一大批lancet、nejm顶级期刊,给疫情防控贡献了巨大力量,所以,只要你会合理的统计分析方法,就用你身边“稀松平常”的临床数据一样能发表顶级研究成果。从本篇文章开始,我们会推出一系列的教程,教大家如何从一堆无意义的数据入手,挖掘出有临床意义的统计模型,换回高分SCI文章。本篇内容,我们就从导论开始讲起。
正文开始
Here is the begining
对于医生来说,如果有某种“特定功能”来预测患者是否会有未知结果,那么许多医疗实践模式或临床决策都会改变。几乎每天我们都会听到这样的叹息:“如果我能提前知道,我当然不会这样做!”。例如,如果我们可以预测患有恶性肿瘤的患者对某种化疗药物耐药,那么我们将不会选择给患者服用该药物。如果我们可以预测患者在手术过程中可能出现大出血,那么我们将谨慎操作并为患者准备足够的血液制品;如果我们可以预测高脂血症患者不会从某些降脂药物中受益,那么我们可以避免许多无意义的医疗干预。
作为一种评估风险和收益的定量工具,临床预测模型可以为医生,患者和卫生管理人员的决策提供更客观,准确的信息,因此其应用变得越来越普遍。在这种刚性需求下,临床预测模型的研究方兴未艾。
当前的医学实践模式已经从经验医学发展到循证医学,再到精准医学。数据的价值从未如此重要。在大数据时代,数据采集,数据存储和分析以及预测技术的飞速发展使得个体化医疗的愿景变得越来越清晰。从医疗实践模式的演变来看,准确预测某种临床结果的可能性也是当前精准医疗模式的内在要求。
因此,我们将从临床预测模型的概念、应用现状、构建方法和过程、临床预测模型的分类、开展临床预测模型研究的必要条件和存在的问题等方面对临床预测模型的研究进行讲解。
临床预测模型的概念
临床预测模型是指使用参数/半参数/非参数数学模型来估计受试者当前患有某种疾病的概率或将来发生某种结果的可能性。可见,临床预测模型是通过已知来预测未知的,该模型是一个数学公式,即利用已知特征通过该模型计算未知结果发生的概率。
如果把未知定义为Y,已知定义为X,那么这个关系即像我们即将讲到的回归分析一样。回归分析的统计性质是寻找“定量因果关系”。简单来说, 回归分析是X对Y的影响程度的定量表征。回归分析包括很多种统计模型,所以,下面的文章中,统计将会是我们讲解到的主要内容,这是数据建模和项目设计的关键,也是数据分析技术中最苛刻(要求最高)的部分。
根据我们研究的临床问题,临床预测模型主要包括诊断模型、预后模型和疾病发生模型。从统计学的角度来看,只要临床问题的结果(Y)可以被特征(X)量化,就可以构建预测模型。
横断面研究中常见的诊断模式是侧重于研究对象的临床症状和特征,以及诊断某一疾病的概率。
预后模型侧重于特定疾病在特定时间段内复发、死亡、残疾和并发症等结果的概率。这种模型在队列研究中很常见。
还有另一种类型的预测模型,叫做疾病发生模型,它是根据受试者的一般特征来预测未来是否会发生某种疾病,这在队列研究中也很常见。
诊断模型、预后模型和疾病发生模型之间有许多相似之处。其结局事件通常是二分类数据,其效应指标是结局发生的绝对风险,即发生的概率,而不是结局发生的相对风险,比如相对风险(RR)、比值比(OR)或风险比(HR)等指标。在模型的技术层面,我们将面临预测因子的选择、建模策略的制定,以及模型性能的评估和验证。
临床预测模型的应用
背景部分介绍了临床预测模型在医学研究和实践中的广泛应用。借助临床预测模型,临床研究人员可以更准确地选择合适的研究对象,患者可以做出对自己更有利的选择,医生可以做出更好的临床决策,卫生管理部门可以更好地监控和管理医疗服务质量,更合理地配置医疗资源。临床预测模型的效能几乎完全反映在疾病的三级预防体系中:
1. 疾病的一级预防
临床预测模型可以根据当前的健康状况,为患者和医生提供未来诊断特定疾病的量化风险值(概率),为健康教育和行为干预提供更直观和更有力的科学工具。例如,基于弗雷明汉心脏研究的弗雷明汉心血管风险评分(the Framingham Cardiovascular Risk Score)阐明了降低血脂和血压可以预防心肌梗死。
2. 疾病的二级预防
诊断模型通常采用无创、低成本、易获取的指标来构建具有高灵敏度和特异性的诊断手段,践行“早发现、早诊断、早治疗”的理念,具有重要的卫生经济学意义。
3. 疾病的三级预防
预测模型提供了疾病复发、死亡、残疾和并发症发生概率的定量估计,指导对症治疗和康复计划,预防疾病复发,降低死亡率和残疾,促进功能恢复和生活质量。
临床实践中有几种成熟的预测模型。例如,Framingham、QRISK、PROCAM和ASSIGN scores都是著名的预测模型。恶性肿瘤的TNM分期系统是最具代表性的预测模型。TNM的最大优势在于它简单快捷,但最大的问题是预测不够准确,这与临床医生的期望值相差甚远。临床实践中,对预测工具的使用需求远远不局限于预测疾病的发生或预测患者的预后这两方面。如果我们能提前预测病人的病情,比如肝癌病人,如果我们能提前预测其是否有微血管浸润,这可能有助于外科医生在标准切除和扩大切除这两个完全不同的切除方式之间作出选择。术前新辅助放化疗是T1-4N+中低位直肠癌的标准治疗方法。然而,在临床实践中发现,根据术前影像学检查判断的淋巴结状态不够准确,具有较高的假阳性或假阴性。在放疗和化疗之前,是否有可能根据已知的特征准确预测患者的淋巴结状态?这些临床问题都可以通过构建合适的预测模型来解决。
冠心病的疾病预防
临床预测模型的研究方法
临床预测模型并不像拟合统计模型那么简单。从模型的建立、验证、评价到应用,有一个完整的临床预测模型研究过程。许多学者讨论了临床预测模型的研究方法。《心脏杂志》(Heart Magazine)最近发表了一篇综述,作者以心血管疾病风险评分(CVD)为例,探讨了如何借助可视化图形和六个重要步骤构建疾病预测模型:
(一)选择一组预测因子作为潜在的心血管疾病影响因素,并将其纳入风险评分;
(二)选择合适的统计模型,来分析预测因子与心血管疾病的关系;
(三)从现有预测因子中选择具有显著意义或足够重要的变量,将其纳入风险评分;
(四)构建风险评分模型;
(五)评价风险评分模型;
(六)解释风险评分在临床实践中的应用。
作者结合文献报道和个人研究经验,总结了如图所示的研究步骤。(这个思维导图非常重要!)
研究类型选择
临床问题决定研究类型选择,临床预测模型可以回答疾病的病因、诊断、治疗反应和预后等问题。不同的问题需要不同类型的研究设计。例如,对于病因学研究,队列研究可用于根据潜在原因预测疾病是否发生。对于诊断准确性的问题,适用横断面研究设计,因为预测因素和结果同时出现或在短时间内出现。为了预测患者对治疗的反应,可以应用队列研究或随机对照试验(RCT)。对于预后问题,队列研究是合适的,因为有预测因子和结果的纵向时间逻辑。评估病因的队列研究,需要合理选择研究对象和控制混杂因素。在诊断模型的研究中,需要一个“金标准”或参考标准来独立诊断疾病,并且参考标准的诊断应该采用盲法。也就是说,参考标准诊断不能依赖预测模型中的预测因子信息,以避免诊断回顾偏倚。评估患者对治疗的反应是一种介入性研究,也要合理选择研究对象,控制非试验因素的干扰。在预后模型的研究中,预测因子和结局之间存在垂直关系,研究人员通常期望在自然状态下获得疾病的预后情况,因此前瞻性队列研究是最常见的预后模型和最好的研究设计类型。
建立研究设计和实施方案
临床实验的数据收集和质量控制需要良好的研究设计和实施协议。首先,我们需要回顾文献来确定要构建的预测模型的数量。有以下几种情形:
(一)目前还没有针对具体临床问题的预测模型。为了构建一个新的模型,通常需要一个训练集来构建模型,并需要一个验证集来验证模型的预测能力。
(二)目前已有预测模型。为了构建新的模型,使用验证集来构建新模型,并使用相同的训练数据集来分别验证现有模型和新模型的预测能力。
(三)为了更新现有模型,使用相同的验证集来验证两个模型的预测能力。
关于训练数据集和验证数据集的生成,可以前瞻性地或回顾性地收集数据,其中前瞻性收集的数据集具有更高的质量。对于建模人群,样本量应尽可能大。对于前瞻性临床研究,相关文件的编制应包括研究方案、研究者操作手册、病例报告表和伦理批准文件。还应进行数据收集的质量控制和管理。如果数据是回顾性收集的,还应评估数据质量,识别异常值,并正确处理缺失值,如填充或删除。最后,根据实际情况确定建模的训练数据集和验证的验证集。由于现实的原因,有时我们只能在同一个数据集上建模和验证,这是允许的,但是模型的外部适用性会受到一定程度的影响。
模型的建立
在建立预测模型之前,有必要澄清以往文献中报道的预测因子,确定选择预测因子的原则和方法,并选择所应用数学模型的类型。通常将使用参数或半参数模型,例如logistic回归模型或Cox回归模型。有时会用机器学习的算法来建立模型,但是这些模型大多是非参数的,导致模型和实际操作起来比较困难。我自己就遇到过这样的问题,机器学习做出来的模型跟临床医生完全没办法解释,人家跟我要评分模型的计算公式,我只能说没有。正是因为很多机器学习的模型,最终不会生成一个带参数的计算公式。目前,预测模型中常用的有四种呈现形式:
(一)公式。直接使用数学公式作为预测模型工具。临床上很常用。
(二)列线图(Nomogram)。通过适当的数学变换,将回归模型的回归系数转化为分数,并作为预测模型工具绘制列线图。
(三) 网络计算器。其本质也是通过适当的数学运算将回归模型的回归系数转换成分数,并将其制作成网站供在线使用。以前少,现在日渐增多。
(四)评分系统。通过适当的数学运算,将回归模型的回归系数转化为一个可量化的评分系统。这个也很常用,诸如此类的很多评分量表。
第1种(公式)形式主要是线性回归模型,即确定性回归。后面3种(列线图、网络计算器、评分系统)形式则是基于参数或半参数模型,其统计性质是模型参数的可视化表示。研究人员可以根据实际情况做出选择。模型建立后,如何评价模型的优劣?模型的评价和验证采用了较高的统计分析技术。例如,评价预测模型的区分度、校准度、临床有效性和其他指标,以确定模型的性能。
模型的验证
预测模型的效果会随着应用场景和人口的变化而变化。因此,对预测模型的完整研究应该包括模型的验证。验证的内容包括模型的内部有效性和外部有效性。内部有效性反映了模型的可重复性,这可以通过交叉验证和自助抽样(重抽样)的方式,利用研究本身的数据进行验证。外部有效性反映了模型的可推广性,需要用不同于研究本身的数据集进行验证,这些数据集在时间和地理上是独立的,或者是完全独立的。
模型的内部验证和外部验证是评估模型稳定性和适用性的必要步骤。用于内部验证和外部验证的数据集应该是完全异构的,但不是在一定程度上异构。通常,来自原始机构的数据被用作模型构建的训练集,并且随机选择一部分内部数据来作为内部验证集。选择其他机构的数据作为外部验证集。当然,最好进行外部数据集验证。
下面,我将介绍几种验证内部有效性的方法。
(一)对半分割法。将现有数据随机分成两部分,一部分用于构建模型,另一部分用于验证模型。采用半分割法将数据分为两部分进行“内部验证”。由于只有一半的数据用于构建模型,因此模型相对不稳定。小样本研究不适合这种方法。
(二)交叉验证方法。这种方法是对半分法的进一步发展。通常使用半折叠交叉验证和N倍折叠(N-fold)交叉验证。半折叠交叉验证方法是将原始数据分成两部分,一部分用于建立模型,另一部分用于验证模型。然后交换两部分的卷,并相互验证。N折叠交叉验证方法是将数据分成N个部分,用N-1部分建立模型,剩下一部分验证模型。用这种方法建立并验证模型N次,就可以构造出一个相对稳定的模型。(常用的N多为5或者10)
(三)自助抽样法(重抽样法,Bootstrap)。传统的Bootstrap内部有效性分析方法是从原始数据集中随机抽取一定数量的可放回案例建立模型,然后利用原始数据对模型进行验证。通过500-1000次随机抽样、建立和验证,可以得到500-1000个模型,并总结出模型的参数分布。因此,可以确定模型的最终参数值。自助抽样法是近年来发展迅速的一种方法,是在计算机运算量增加的背景下发展起来的。结果表明,用该方法得到的模型比用前两种方法得到的模型具有更高的稳定性。可以推测,自助抽样法将越来越多地应用于预测模型的内部有效性分析。当然,如果条件满足,我们应该尽可能多地对预测模型进行外部验证,以提高模型的外部适用性。
临床效果和有效性评估
临床预测模型的最终目的是改变医患双方的行为,改善患者的预后或成本效应,这是临床预测模型的临床效应研究。从方法论的角度来看,通常是根据新的预测模型来划分训练集和验证集。例如,为了预测二分类结局,我们可以通过评估模型的敏感性和特异性来评估临床效果。
临床预测模型的临床效益研究,其最终目标是研究其是否会改变医患的行为,改善患者的预后以及提高成本效益。方法学上,通常根据新的预测模型分为训练集和验证集。例如,对于预测二分类结果,我们可以通过模型的敏感性和特异性来评估临床有效性。我们通常根据预测模型评估患者的预后好坏来预测生存结局。例如,通过Nomogram计算每个受试者的得分,并根据一定的临界值将患者分为预后良好组和预后不良组,然后绘制Kaplan-Meier生存曲线。决策曲线分析也是预测模型临床有效性的常用方法。从预测模型构建和研究设计的最终目的来看,设计随机对照试验的临床有效性评估最好,并且通常使用整群随机对照试验来评估应用预测模型是否可以改善患者预后并减少医疗费用。
模型的更新
由于疾病风险因素、无法测量的风险因素、治疗措施和治疗背景随着时间推移产生变化(称为校准漂移),即使是已经充分验证的临床预测模型,其性能也会日益下降。因此,临床预测模型需要不断地发展和更新。同样的,最常用的恶性肿瘤TNM分期系统也因上述原因而不断更新。
临床模型研究的分类
抛开研究的角度,单从临床医生的角度来看,目前对临床预测模型的研究大致可分为三类:
1. 构建具有传统临床特征、病理特征、体格检查结果、实验室检查结果等的预测模型。此类模型的预测变量临床上更加便于获取,并且此类模型的构建更加可行。
2. 随着影像组学研究方法的成熟,越来越多的学者意识到影像学的某些表现或参数代表了特定的生物学特征。使用彩色多普勒超声、CT、MR以及PET的大量成像参数结合临床特征来构建预测模型,往往可以进一步提高预测模型的准确性。此类建模基于影像组学特征的扫描。此类建模的前期工作量比第一种方法大得多,并且需要临床和影像部门之间的紧密合作。
3. 随着基因组学和蛋白质组学等高通量生物技术的广泛应用,临床研究人员正在探索特征性的生物标志物,并由这些大量生物信息构建预测模型。这种预测模型是基础医学向临床医学转化的良好切入点,但是由于需要对临床样本进行各种组学测试,因此需要强大的经济支持。但是,科学研究的投入和产出是成正比的。俗话说:“舍不得孩子套不着狼。”尽管没有人愿意将狼与孩子困在一起,但原因是相同的。一旦愿意将钱投入到能很好地转化为临床的组学分析研究中,通常这些研究就可以产出具有高影响因子的文章。
临床模型研究的必要条件
1. 建立单个疾病的随访数据库,并尽可能完整地收集患者信息,包括但不限于以下各项:人口统计学特征、既往史、家族史、个人史;疾病相关信息,例如治疗前重要的体格检查和实验室检查结果、疾病严重程度、疾病临床阶段、病理阶段、组织学等级;治疗信息,如手术方法、放化疗方案、剂量和强度;预后:癌症患者需要进行持续随访才能获得其预后,此任务较为困难和复杂。其他信息:如果有,例如遗传信息。数据库的建立为核心。
2. 从先前发表的预测模型文章中,大多数都是基于回顾性数据集的,而其中有一部分是基于预期数据集的。这类研究与RCT相比更容易进行,属于我们现在提出的现实世界研究领域。现实世界研究和RCT应该是临床研究皇冠中的两颗同样璀璨的珍珠,且能互相弥补不足。过去,我们过分强调RCT的重要性,而忽略了实际数据本身的巨大价值。毫无疑问,RCT数据具有最高的质量,但对数据进行了严格的筛选,因此证据的外推受到限制。现实世界的数据来自我们的日常临床实践,它更全面地反映了临床干预的有效性,而且具有更好的外部适用性。但是,现实世界研究的最大问题是数据质量参差不齐,并且存在太多难以识别的混杂因素。因此,有必要使用更复杂的统计方法从繁复的混杂因素中找出真相。沙里淘金并不容易,可靠的统计学基础就像沙中淘金的筛子。我们需要了解混杂因素是客观存在的,因为任何临床结果的发生都不是单一因素作用的结果。对于混杂因素,有两个校正级别。一种是在实验设计阶段进行的校正,这是顶层校正,例如通过随机化和足够的样本量来均衡组间的混杂因素。这也是RCT受欢迎的原因:只要样本量足够大且随机化正确,混杂因素就可以一劳永逸地解决。第二种是通过统计学方法进行的结果校正,显然不如RCT校正那么彻底,但第二种情况更接近我们临床的实际情况。
3. 样本量。因现实研究中存在许多混杂因素,所以辨别混杂因素对结果的影响,需要一定的样本数量。通过多变量分析筛选变量的一种简单可行的原则是,如果在多变量分析中包括一个变量,则应有20个端点样本,即“ 1:20原理”。
4. 临床研究洞察力。建立临床预测模型是为了解决临床问题。要发现有价值的临床问题,就要进行广泛阅读和临床实践。
预测模型研究中面临的问题
1. 临床转化率低。主要原因是预测模型的临床应用需要平衡模型的准确性和简便性。想象一下,如果有一个模型可以像TNM分级一样易于使用,但是比TNM分级更准确,那么您会做出哪些选择?
2. 大多数临床预测模型都是基于回顾性数据集构建和验证的,很少在前瞻性数据中进行验证。因此,模型预测的稳定性相对较差。
3. 多数临床预测模型的验证基于内部数据。多数文章仅一个数据集。即使有两个数据集,一个用于构建模型,另一个用于验证,但两个数据集通常来自同一研究中心。如果预测模型的验证可以进一步扩展到另一个研究中心的数据集,则该模型的应用价值将得到极大的扩展。我自己在临床工作中遇到过这样的问题,同样的肝硬化评分APRI、FIB-4在不同人群中统计效能千差万别。这项工作非常困难,需要多中心合作。此外,大多数国内中心没有用于验证的完整数据库,这又回到了前面讨论的“数据库重要性”主题。
科研猫结语
临床预测模型的初衷是使用少量易于收集的低成本预测因子来预测疾病的状态和预后。因此,大多数预测模型都很简短。在信息技术不发达且数据收集、存储和分析成本高昂的时代,这是合情合理的。但是,随着经济的发展和技术的进步,数据收集和存储的成本已大大降低,数据分析技术也在不断进步。因此,临床预测模型应突破固有的概念,应用大量数据(大数据)和更复杂的模型以及算法(机器学习和人工智能)来为医生、患者和医疗决策者提供更准确的结果。
另外,从临床医生的角度出发,进行临床预测模型的研究应把握以下四个原则:
建立更好的临床预测模型也是精准医学的内在要求;
如何获得高质量的数据?建立数据库是核心竞争力,而预测模型只是一种技术方法;
我们需要认识到现实研究与RCT同样重要。两者都是提供可靠的临床证据的方法。
模型的验证需要内部和外部的合作,因此,我们应该加强科学研究的内部合作,提高对多中心科学研究合作的认识