文献主要内容
细胞游离DNA (cfDNA)分析有望早期发现肺癌,并使患者获得更高的生存率。然而,以往基于cfDNA的研究的检测灵敏度仍然较低,不足以满足临床应用,特别是对早期肿瘤。
这项研究包括350名非癌症患者和432名癌症患者。参与者的血浆cfDNA样本通过全基因组测序进行分析。在训练队列中比较多个cfDNA特征和机器学习模型,以获得最优模型。在三个验证队列中评估模型的性能。
作者利用cfDNA片段组学特征建立了堆叠集成模型(a stacked ensemble model),对早期肺癌的检测具有优越的敏感性,可以促进早期诊断,使更多的患者受益
基本假设
在细胞凋亡和坏死过程中,DNA片段被释放到循环中形成cfDNA。它们携带来自起源细胞和组织的遗传和表观遗传信息。具体来说,cfDNA的一部分,即循环肿瘤DNA (ctDNA),代表肿瘤细胞脱落的DNA。可以通过检测肿瘤体细胞突变来区分ctDNA和非肿瘤cfDNA(10),但基于ctDNA突变呼叫的策略在早期肺癌中的灵敏度低至40%。
cfDNA切割位点基序的特征代表了肿瘤学液体活检的另一类生物标志物。
cfDNA fragmentomic features
文章中提到的Multidimensional Cell-Free DNA Fragmentomic包括一下几个特征,其中有四个是此文新定义的:
以下两种特征主要是从 the cfDNA fragmentation size (DELFI) approach的定义扩展而来:
- The fragmentation size coverage (FSC)
- fragmentation size distribution (FSD)
6bp EDM主要从 the 4bp end motif (EDM4bp) feature特征扩展而来,增加了序列的多样性,从245个序列增加到4096种。
- The 6bp end motif (EDM)
- The 6bp breakpoint motif (BPM)
- The copy number variation (CNV): ichorCNA R包分析
模型构建
主要使用的h2o R包,使用的机器学习模型有以下几种:
- Generalized Linear Model (GLM)
- Gradient Boosting Model (GBM)
- XGBoost (XGB)
- Random Forest (RF)
- Deep Learning (DL)
文献的研究思路
数据如下
分析的样本总共有541例,312例非小细胞肺癌,230例正常对照,分为了三个数据集:一个训练集226例,两个验证集n1=128例,n2=188例,还有一个独立验证集n3=240例。
模型构建方法如下
主要结果
cfDNA片段组学特征评估与机器学习算法
本研究主要通过评估验证队列中cfDNA特征和机器学习算法组合的AUC值来进行模型选择。
作者在所有基础模型(GLM、GBM、深度学习、随机森林和XGBoost)中测试了FSC、FSD、EDM、BPM和CNV的AUC特征,结果如下表格:
通过对不同基础模型的比较发现,叠加模型的EDM、BPM、FSC、FSD和CNV特征的AUC值均高于单一算法模型。
因此,作者选择了堆叠集成模型作为我们后续评价的预测模型。
这里看着比较突出的指标是BPM与CNV。
模型构建不止有模型选择,还有阈值设置,本次阈值设置如下:
We chose the cancer score of 0.66 as the cutoff based on the 95.7% specificity in the validation I cohort。
不同测序深度模型性能评估
最后作者还测试了不同测序深度下模型的表现:
在将WGS的覆盖率降低到4x,3x,2x,1x和0.5x后,我们发现它们的AUC值在验证I(>0.966)和II(>0.971)数据集中仍然很高。
我就不太明白:为啥都低到0.5x了,性能还这么好?
此外,这篇文献的作者单位还挺有意思,感兴趣可以看一看~
文献信息:
Am J Respir Crit Care Med. 2023 May 1;207(9):1203-1213. doi: 10.1164/rccm.202109-2019OC
Multidimensional Cell-Free DNA Fragmentomic Assay for Detection of Early-Stage Lung Cancer