- PMID: 34313325
- DOI: 10.1111/cge.14038
CLINICAL GENETICS IF:4.438 (2021年6月30日公布) JCR小类二区
摘要
家族性胰腺癌 (FPC) 患者的一级亲属 (FDR) 患胰腺导管腺癌 (PDAC) 的风险增加。调查和了解 FPC 易感家庭中 PDAC 易感性的遗传基础可能有助于未来的风险评估和高风险个体的管理。使用丹麦的 27 个 FPC 家族队列,我们对 61 个 FPC 患者的一级亲属进行了全基因组测序,重点关注可能导致 PDAC 家族聚集的罕见遗传变异。使用 gnomAD 数据库作为外部对照进行统计分析。通过对杂合过早截断变异体 (PTV) 的分析,我们确定了具有多个种系突变的癌症相关基因和癌症驱动基因。关联分析检测到 20 个具有错误发现率的显着基因,q < 0.05的有:PALD1 , LRP1B , COL4A2 , CYLC2 , ZFYVE9 , BRD3 , AHDC1等。功能注释显示重要基因被编码细胞外基质和相关蛋白的基因簇富集。PTV 基因被与小分子转运、先天免疫系统、离子通道转运和刺激传感通道相关的功能Over-represented。总之,FPC 患者的一级亲属携带与癌症发病机制相关的罕见种系变异,这可能有助于增加对 PDAC 的易感性。确定的变异可能对易感家庭中高风险个体的风险预测有用。
1 介绍
全球男性胰腺癌发病率为 5.5/10 万,女性为 4.0/10 万。1在这些病例中,估计有 5%–10% 为家族性胰腺癌 (FPC)。2 FPC 是一种具有家族聚集性的遗传性恶性肿瘤,定义为在没有已知遗传性癌症综合征的情况下,至少有一对一级亲属 (FDR) 患有胰腺导管腺癌 (PDAC)。3 FPC 的家族聚集增加了亲属中 PDAC 的风险。4据估计,在 FPC 易感家庭中,有 2 个一级亲属患有 PDAC 的个体患 PDAC 的风险高 6.4 倍,而至少有 3 个一级亲属患有 PDAC 的个体患疾病的风险高 32 倍。5这些报告将易感一级亲属描述为高风险个体 (HRI)。国际共识指南建议每年筛查 HRI,包括 FPC 易感家庭中的一级亲属——对 PDAC 易感基因进行基因检测是未来风险评估和 HRI 分层的潜在工具。6 , 7
我们最近分析了丹麦全国家庭队列中 FPC 的家族相关性,并估计一级亲属对 FPC 患者的高遗传率为 51%。8 FPC 的高遗传易感性要求努力识别疾病发病机制的遗传变异。在文献中,已经进行了多项全基因组关联研究 (GWAS),并解决了与散发性胰腺癌 (SPC) 相关的常见单核苷酸多态性 (SNP)。9 - 11然而,只有少数研究关注 FPC 12——可能是由于样本可用性有限,因为 FPC 代表胰腺癌的一个罕见亚组,估计约占所有 PDAC 病例的 10%。
尽管付出了巨大的努力,但以前的遗传关联研究仅检测到有限数量的 PDAC 易感基因座。13 GWAS 基于“常见疾病,常见变异”假设,常见变异是指存在于 1%–5% 以上人群中的等位基因变异。常见的变体导致疾病风险的增加相对较小。14与其关注常见的 SNP,更好的选择是使用下一代测序 (NGS) 和统计模型分析罕见的单核苷酸变异 (SNV),以联合分析罕见的变异。
使用 NGS 技术的研究已经确定了与 FPC 相关的BRCA1、BRCA2、CDKN2A、PALB2和ATM中的显着基因突变。15 , 16尽管如此,所有 FPC 病例中只有约 12% 携带任何这些突变——这意味着所有 FPC 病例中 >80% 的种系成分仍然未知。7 , 17最近的全基因组测序 (WGS) 分析表明,FPC 的遗传结构具有高度异质性,目前鉴定的遗传变异解释了疾病易感性的有限遗传成分。16FPC 的遗传异质性意味着易感性变异可能对某些个人或家庭是私有的——这种情况给识别相关遗传变异带来了挑战。
FPC 患者与其一级亲属之间的高度遗传相似性平均为 50%,这表明后者是进行遗传关联研究的有价值的样本。我们对来自丹麦人群的全国队列中的 FPC 患者的一级亲属 进行了第一次北欧 WGS 研究。FPC 患者一级亲属中罕见种系变异的分析和表征有助于揭示 FPC 高遗传易感性的分子基础。
2 材料和方法
2.1 样本采集
丹麦欧登塞大学医院内科胃肠病学系目前纳入了一个由 27 个对 FPC 易感的丹麦家庭组成的全国性队列。在纳入筛查计划之前,每个家庭都在其家乡的临床遗传学部门被诊断出患有 FPC 的遗传易感性。18根据我们机构以前的定义和国际共识标准,19 FPC 的家族易感性被定义为存在以下任何一种情况:(1)两个患有 PDAC 的一级亲属,其中至少一个病例在年龄 < 50 岁时首次出现;或 (2) 至少三个带有 PDAC 的一级亲属。
每个家庭的 FPC 病例的一级亲属在达到一定年龄(即比家庭中 PDAC 的最早发病年龄小 5 岁)后被纳入筛查计划;但不迟于 50 岁。一级亲属的 PDAC 筛查计划包括胰腺的年度成像(内镜超声检查和细针活检,如果相关),以及 PDAC 血液标志物(即癌症抗原 19-9、CA19-9) - 有可能个体化每个人的程序。
筛选计划中的个人,包括目前没有出现 PDAC 的 FPC 患者的一级亲属,获得了参与 WGS 研究的知情同意书。该研究包括 61 名一级亲属,并从每个人身上采集 10 mL 全血样本进行测序分析。在先前的研究中详细描述了筛选计划中包含的 FPC 易感家庭的队列概况。8
2.2 伦理
相关个人的数据和样本收集是在丹麦国家卫生研究伦理委员会 (NVK)(项目编号:1604008)和丹麦数据保护局(项目编号:18/54160)的批准下进行的。
2.3 测序分析
使用从外周血中提取的 DNA 对来自 FPC 患者的总共 61 个一级亲属进行了全基因组测序。简而言之,使用 TruSeq DNA PCR free kit (Illumina, Inc) 对每个样品 20 μg 基因组 DNA 进行测序。在 NovaSeq 6000 (Illumina, Inc) 上进行测序。使用 Illumina DRAGEN 软件分析序列读数并将其与人类参考基因组 (hg19) 比对。使用 VarSeq (Golden Helix, Inc.) 对变体进行注释,其中 (i) RefSeq 基因转录本中的功能结果,(ii) 接合性,(iii) 使用公开可用的变体数据库 (gnomAD) 确定的次要等位基因频率 (MAF) 和 (iv)存在于 ClinVar 中。
2.4 变体的过滤和解释
我们使用 VarSeq 应用过滤(https://www.goldenhelix.com/products/VarSeq/),版本 2.2.1 (Golden Helix, Inc.) 用于下游过滤。所有变体首先以至少 10 倍的覆盖率、非同义词过滤,并呈现在外显子组区域或剪接位点,代表范围为 60.4%–95.6% 的目标碱基。然后对过滤后的变体进行两次处理,每个参数处理一次。涵盖复合杂合子、常染色体隐性遗传、多因素遗传或从头遗传的可能性的第一个参数设置为 ≤0.01 的群体频率(genomAD 和 ExAC)。第二个参数,涵盖单核苷酸多态性 (SNP) 和小插入和缺失 (INDEL) 的显性遗传,被设置为频率≤0.0001。我们使用EnsDb.Hsapiens.v86提供的注释删除了属于 (1) 假基因的序列变体Bioconductor 中的软件包(DOI:10.18129/B9.bioc.EnsDb.Hsapiens.v86);(2) 节段重复 (humanparalogy.gs.washington.edu)。多映射读取和伪影也从后续分析中删除。
然后将变体分类为(1)一组功能变体,包括移码变体、框内缺失、框内插入、起始密码子变体、剪接受体变体、剪接供体变体、终止获得变体和错义变体;(2)一组同义变体,包括剪接区变体、终止保留变体和5' UTR过早起始密码子获得变体。
VarSeq ( https://www.goldenhelix.com/products/VarSeq/ ) 用于非同义变体的功能预测。根据 ACMG/AMP 建议的 ClinVar 提交的记录以及当地临床医生和生物学家使用内部评估目录的评估,评估变异的临床意义(良性、可能良性、致病性、可能致病性、不确定性等)。从非同义组中过滤掉评估为良性或可能良性的变体。同样,从同义组中删除评估为致病或可能致病的变体。
SNV 的功能解释由 dbNSFP(非同义 SNP 功能预测数据库)提供,该数据库是为人类基因组中所有潜在非同义 SNV 的功能预测和注释而开发的。20通过 VarSeq 的 dbNSFP 包含来自六种功能预测算法的变体效应分类。致病性预测由类似 PHRED 的评分提供,该评分基于 CADD(组合注释依赖消耗)评分 1.4。21CADD 是一种用于对 SNV 的有害性以及人类基因组中的插入/缺失变体进行评分的工具,根据来自周围序列上下文、基因模型注释、基因模型注释、进化约束、表观遗传测量和功能预测。PHRED-like C-Score 定义为 -10*log10(rank/total),通过相对于人类参考基因组中所有可能的 86 亿替换对变体的 C-Score 进行排名。
2.5 基因组聚合数据库
基因组聚合数据库 (gnomAD) ( https://gnomad.broadinstitute.org ) 是一个开源数据库,用于聚合和协调外显子组和基因组测序数据。它是世界上最大的人类遗传变异公共集合,也是基础研究和临床变异解释的热门资源。第 2 版数据集 (GRCh37/hg19) 跨越了 125 748 个外显子组序列和 15 708 个来自无关个体的全基因组序列,这些序列通过各种遗传研究进行了测序。我们利用 gnomAD 的 WGS 数据作为统计分析的外部控制。
2.6 统计分析
代理外部控制关联测试 (ProxECAT):ProxECAT 22是一种专门为分析 WGS 数据而开发的统计方法,使用现有的大型数据库作为外部控制(此处为 gnomAD)。与侧重于预测为功能性遗传变异并比较它们在组之间的频率的传统病例对照设计不同,ProxECAT 使用非功能性变异作为样本中遗传区域内变异的测序和调用情况的代理。它比较了变体频率和代理频率之间的比率(λ g* , λ proxy) 在外部对照的情况下,以调整测序技术、处理(即 DNA 样本的处理)和读取深度以创建内部和外部数据集的组差异,并使用零假设:
其中 g* 代表感兴趣的基因,λ 是每 N 个病例或对照的变异率。由于最大似然估计在泊松分布下具有封闭形式,因此可以通过似然比检验推断估计的统计显着性。22总而言之,ProxECAT 是一种基于基因的负荷测试,其中包括非功能性变体,以便能够使用现有数据库作为统计测试的外部控制。该模型已集成在 R 包 ProxECAT 中,以帮助实现该方法 ( https://github.com/hendriau/ProxECAT )。
2.7 Over-represented分析
Over-represented分析 (ORA) 用于通过计算超几何分布的概率来评估已识别的重要基因与来自功能簇(生物途径,癌症相关基因的编译列表)的基因的重叠是否与随机显着不同:
其中N是基因组中所有基因的数量,m是功能簇中的基因数量,n是被确定为显着的基因数量,k是正在测试的重叠基因的数量。R 函数phyper()用于计算超几何概率。
ORA 已在用于生物途径分析的网络工具中实施,即基因集富集分析 (GSEA),以测试一个生物途径中的基因是否在已识别的重要基因列表中Over-represented。GSEA 在https://www.gsea-msigdb.org/gsea/index.jsp的规范路径上进行。
从测序分析、过滤、统计测试、功能注释到最终报告的分析流程如图 1所示。
图1 全基因组测序分析工作流程
3 结果
3.1 测序分析
我们对 FPC 患者的总共 61 名未受影响的一级亲属(性别:25 名女性/36 名男性;中位年龄:59 岁 [37-84])(表 S1)进行了测序,每个样本的平均输出(中位数)为 15161 个 SNV(范围:14678-15 630),在使用 VarSeq 应用内部过滤管道之后。总共检测到 60 778 个 SNV。其中,所有样本中检测到2397个SNV;16 533 个 SNV 在 61 个样本中仅检测到一次(称为私有突变,占所有检测到的 SNV 的 27.2%)。在图 S1,我们通过 61 个样本中的检测次数来显示 SNV 数量的频率。如方法部分所述,我们进一步过滤所有变体以从假基因、假基因同源性、片段重复和多映射变体中去除 SNV,留下 46 033 个独特的 SNV 用于后续分析。
3.2 过早截断变异分析
PTV 代表基因中的一种变体,这些变体产生早期终止密码子,导致蛋白质缩短或截短,并导致严重的功能后果。继罗伯茨等人之后。(2016),我们使用以下标准过滤了16 个SNV(i)无义变体、剪接位点变体(剪接供体变体、剪接受体变体)和移码 INDEL(移码变体);(ii) 种系中的杂合子;(iii) 来自 gnomAD 的次要等位基因频率 (MAF) < 0.01 和 (iv) 仅存在于一个个体中,即“私人”或由家庭中的一级亲属共享,即“家族性”,在 448 个基因中总共获得 492 个杂合 PTV . 然后我们计算了每个基因中 PTV 的数量。
具有至少一个 PTV 的基因的完整列表显示在表 S2中。图 2(A)是基因按其携带的 PTV 数量分布的直方图。大多数基因只有 1 个 PTV。有 22 个基因具有 2 个 PTV,8 个基因具有≥3 个 PTV(表 1)。图 2(B)绘制了按托管 PTV 数量排序的 448 个基因(红色标记的点表示具有超过 4 个 PTV 的基因)。在表 1和表 S2中,很明显,顶级基因所包含的异源 PTV 的数量主要由私有突变贡献,尽管也有基因仅与家族中的一级亲属共享的 PTV。
图2 过早截断变体 (PTV) 分析结果用直方图说明了按其携带的 PTV 数量分布的基因 (a) 和按宿主 PTV 数量排序的基因散点图 (b)。红色圆点是具有 4 个或更多 PTV 的基因
每个 PTV 的详细信息显示在表 S3中,每个携带突变的样本一行。“家族” PTV 由同一家族的样本携带,而“私有” PTV 只能在一个样本(行)中找到。从表 S3中可以看出,许多基因都被具有高 PHRED 分数和高功能预测投票(dbNSFP 功能预测投票)的 PTV 富集,表明在功能影响方面具有很高的意义。PHRED 评分与 dbNSFP 功能预测之间的正相关趋势(Spearman 相关系数 0.26,p < 1.87e-06)如图 S2所示。
3.3 罕见变异关联分析
共有 12 297 个 MAF < 0.01 的变体可用于关联分析。这些变异来自 7229 个基因,其中 531 个基因具有至少一个功能性非同义突变和一个同义突变,这些突变使用 ProxECAT 进行了测试。图3中的 QQ 图 显示了p值偏离随机分布的重要基因。图4中的曼哈顿图 显示了沿染色体位置的基因。FDR < 0.05 ( p < 1.5e-03) 的显着基因有 20 个(表2),p < 0.05 的基因有 84 个(表 S4)。排名前 6 位的基因(p < 1e-05,FDR < 1e-03)包括PALD1、LRP1B、COL4A2、CYLC2、ZFYVE9、BRD3。10 号染色体上的PALD1(paladin)非常显着(p < 1.53e-33),因为它在图3、4中从其他基因中 脱颖而出 。
图3 使用 ProxECAT 进行关联测试的基因p值(负对数)的QQ 图。显着基因偏离随机分布的p值的对角线。红点是 FDR < 0.05 的 20 个基因
图4 曼哈顿图绘制来自关联测试的基因与其基因组位置的p值(负对数)
在PALD1中观察到 7 个SNV ,6 个错义和 1 个剪接区变体。只有 1 个错义突变 (10:72294183, Ref/Alt: C/T) 和剪接区变体符合 MAF < 0.01。过滤后观察到LRP1B(低密度脂蛋白受体相关蛋白1B,染色体2)16个SNV,其中6个具有MAF <0.01,5个错义突变和1个剪接区变异。我们在COL4A2(胶原蛋白 IV 型 alpha2 链)中观察到 12 个 SNV,其中 4 个的 MAF < 0.01。过滤后,剩下 1 个错义变体(13:111155578,Ref/Alt:G/A)和 1 个剪接区域变体。对于CYLC2(cylicin 2),有 6 个 SNV,其中 3 个的 MAF < 0.01,有 1 个错义变体(9:105767091,Ref/Alt:C/A)和 2 个剪接区变体。这ZFYVE9(含9锌指FYVE型)基因有3个SNV,其中2个SNV的MAF < 0.01,有1个剪接受体变异(1:52729440,Ref/Alt:-/CA)和1个剪接区变异。BRD3(含 3 个溴结构域)基因有 5 个 SNV,其中只有 2 个 MAF < 0.01,有 1 个错义突变(9:136899924,Ref/Alt:T/C)和 1 个同义剪接区变异。表 2还具有另一个 BRD 基因,BRD4具有 2 个错义突变(19:15350625,Ref/Alt:C/T;19:15350625,Ref/Alt:C/T)和 1 个剪接区变体。
表2中重要基因中每个罕见的非同义变体的详细信息 可以在表 S5中找到,显示p < 0.05 的所有基因。一般来说,这些变体具有高 PHRED 分数 (>20),尽管在某些变体中也观察到低分数。值得注意的是,绝大多数非同义变体是错义突变。
与图 S2类似,PHRED 分数显示出与 dbNSFP 功能预测投票(图 S3)的明显相关性,这表明高 PHRED 分数与变体的高功能性相关。然而,相关程度远高于 PTV(Spearman 相关系数 0.78 对 0.26),具有更高的统计显着性(p值 3.07e-75 对 1.87e-06)。从图 S3中,与图 S2相比,更多具有高 PHRED 分数的变体被预测为具有破坏性,这表明关联测试检测到的变体在功能上更相关。
3.4 Over-represented的基因簇
将含有至少一种 PTV 的 448 个基因提交给 GSEA,以使用超几何检验对典型途径进行Over-represented分析。在来自 GSEA 数据库的 2868 条途径中,有 5 条典型途径显著Over-represented(FDR < 0.05),包括宇宙中的 40 071 个基因(表 3)。由 728 个基因组成的基因组“小分子转运”有 26 个基因与 448 个 PTV 基因列表重叠,导致 FDR < 2.44e-03。小基因组“butyrophilin (BTN) family interaction”只有 12 个基因。其中四个可以在 FDR < 1.29e-02 的 PTV 基因中找到。基因组“离子通道转运”由183个基因组成。其中 11 个可以在 PTV 基因列表中找到,导致 FDR < 1.29e-02 的显著Over-represented。“先天免疫系统”是一个包含1117个基因的大型基因组。其中,30个与PTV基因重叠(FDR < 2.35e-02)。有 8 个 PTV 基因与“刺激感应通道”中的 106 个基因重叠,导致 FDR < 2.35e-02。
接下来,我们将表2中 ProxECAT测试的 20 个重要基因提 交给 GSEA。一种与细胞外基质 (ECM) 相关的途径明显过多(表 3)。在该通路的 275 个基因中,有 4 个基因(LAMB4、DMBT1、BMPER、COL4A2)出现在表 2的重要基因列表中,与超几何 p 值 9.42e-06(FDR < 2.75e)有显着重叠-02)。该通路是一组编码核心细胞外基质的基因,包括 ECM 糖蛋白、胶原蛋白和蛋白聚糖。
3.5 癌症驱动基因的富集分析
我们最终分别测试了托管异源 PTV 的基因列表和使用 ProxECAT 测试的重要基因列表中癌症驱动基因的重叠。为此,对检测到的基因列表和 Dietlein 等人 (2020) 23鉴定的 460 个癌症驱动基因的集合之间的重叠基因数量进行了计数,并使用超几何检验进行了测试。在表 S4中的 84 个基因中,一个基因,即 KIT 原癌基因 ( KIT),与癌症驱动基因列表重叠。虽然只有一个重叠,但超几何测试报告了p < 4.2e-03,表明癌症驱动基因显着富集。KIT中的错义变体基因 (4:55595566, Ref/Alt: C/T) 的 PHRED 得分为 32,并且 6 票中的 6 票被预测为具有破坏性。
同样,在表 S2中的 448 个 PTV 基因中,发现了 12 个重叠,TCHH、TMPRSS15、CHIT1、ZNF233、AIM2、SPATA31E1、PRDM2、DIS3、ATP11A、CCDC66、NFKBIE、TNFRSF10C,导致超几何p < 2.2e-16 ,癌症驱动基因的极其显着的富集。
4 讨论
由于高度的遗传相关性和家族成员中风险基因的聚集,FPC 患者的一级亲属患 PDAC 和其他癌症的风险增加。通过在全国队列中对 FPC 患者的一级亲属进行首次 WGS,我们发现基因中罕见基因突变的富集与癌症发病机制具有重要意义。
4.1 罕见过早截断变体的相关性
通过缩短基因的蛋白质编码序列,PTV 可以导致宿主基因的功能改变,包括通过例如无意义介导的 mRNA 衰减而获得或丧失基因功能。24识别 PTV 与人类疾病的关联是检测药物靶点和了解疾病的有用方法。使用与 Roberts 等人 (2016) 相同的方法,16我们能够检查 FDR 中的 PTV 基因并优先考虑它们以进行进一步评估。
表1顶部 是CCDC40(包含蛋白质的卷曲螺旋结构域),包含 6 个异源 PTV,所有这些都是“私有”突变。一项研究表明,该基因与原发性免疫缺陷疾病有关,25这可能与 PDAC 的发展有关。26* MUC* (粘蛋白)基因编码一个高分子量、高度糖基化的蛋白质家族,这些蛋白质在癌细胞周围形成一层保护层。它们在胰腺癌的发病机制中至关重要,并且与对细胞毒性药物的耐药性、癌症侵袭性、转移和细胞增殖有关。27* MUC的表达基因已被证明与胰腺癌的前体病变(胰腺上皮内瘤变,PanIN)和总生存期有关。28据报道,在表 1中的其他基因中, DNAH* (动力蛋白轴索重链)的体细胞突变与胃癌存活和治疗反应有关。29* ANO7*中的一个 SNP被发现与侵袭性前列腺癌的风险相关,该基因的表达升高与疾病严重程度和结果相关。30
除了观察到的 PTV,我们还在已知的 FPC 易感基因16中发现了符合我们的 PTV 定义但在 Ensembl Variation 数据库中缺失等位基因频率的致病变异。在已知的12个FPC易感基因中,我们观察到2个家族中BRCA2基因2个致病变异(每个家族1个),1个家族ATM基因1个移码变异, 1个家族CDKN2A基因1个移码变异,1个停止获得MSH6中的变体在一个家庭中。当先证者(即各自家族中的 FPC 患者)获得类似的测序数据时,这些致病变异与上述明确定义的 PTV 可作为 FPC 家族分离分析的候选者。这种分析将有助于识别新的因果变异,并进一步表征 FPC 中已知变异的功能特征。
4.2 关联检验显着基因的相关性
在使用 ProxECAT 的关联分析中显示最高统计显着性的基因是PALD1(表 2)。通过使用机器学习,Deeb 等人 (2015) 31发现PALD1是他们对弥漫性大 B 细胞淋巴瘤患者进行分类的四种最具预测性的蛋白质之一。在另一项研究中,发现抑制PALD1的表达可增强永生化人内皮细胞的血管生成,从而促进癌症的发展。32通过筛选碱基特异性突变,Tuupanen 等人 (2014) 33在结直肠癌的PALD1中发现了热点突变。
表2中一些重要基因的突变和转录变化 先前已被证明与 PDAC 相关。Brar 等人 (2019) 34发现LRP1B(低密度脂蛋白受体相关蛋白 1B)突变在转移性病变中比在原发性胰腺组织中更常见,这表明该肿瘤抑制基因的突变可能促进 PDAC 转移。表2中的两个基因 BRD3和BRD4属于溴结构域和末端外 (BET) 蛋白家族,这是人类癌症中最突出的转录脆弱性之一——可作为癌症治疗的潜在治疗靶点。35已经表明,BET 溴结构域抑制剂可以阻止胰腺癌细胞的生长。36最近的一项研究表明,AHDC1基因通过 lncRNA 和 miRNA 之间的竞争性内源性 RNA (ceRNA) 相互作用上调,从而促进宫颈癌的进展。37* MCM* (微型染色体维持)基因的过表达与 PDAC 进展和预后显着相关,38* MCM的表达可作为 PDAC 的预后和治疗生物标志物。39 MCM5中发现的错义突变在这项研究中,它可能作为影响基因表达的顺式调节突变(作为表达数量性状基因座,eQTL)发挥作用,并导致 PDAC 的潜在风险。DMBT1(在恶性脑肿瘤中缺失1)是一种抑癌基因。已经从 PDAC 细胞系中发现了DMBT1的 COOH 末端片段的分泌, 40而该基因也被发现在 PDAC 中差异表达。41目前检测到的基因错义突变可能导致其抑癌活性失调,从而促进 PDAC 的发展。同样,IGF2BP3的表达增加(胰岛素样生长因子 2 mRNA 结合蛋白 3)被发现可促进 PDAC 的侵袭性和转移,42 , 43而SGK2(血清/糖皮质激素调节激酶 2)的失调影响 PDAC 的治疗反应。44 RIF1基因已成为染色体维持的保守调节因子,用于控制 DNA 复制和修复。*该基因在胰腺癌细胞系中被发现高度上调,被认为是胰腺癌诊断和治疗的潜在生物标志物。45
总之,我们确定了多个先前已被证明与癌症发展、进展和转移相关的基因——其中一些基因与 PDAC 发病机制直接相关。我们检测到的重要基因的表达可能受到种系突变的影响,例如,通过 DNA 转录因子导致相应蛋白质的表达改变或通过对 micro-RNA 结合的亲和力增加。46 , 47鉴于基因表达在 PDAC 中的高度重要性,阐明所涉及的潜在调节机制将很诱人。
值得注意的是,检测到的重要基因中的罕见变异主要是错义变异(表 S5)。长期以来,人们一直在讨论癌症易感基因中错义突变的影响48,并且建议识别新易感基因的努力不应忽视错义变异,因为它们在癌症易感性中的重要作用。49* BRCA1和BRCA2的大区域携带错义变异,尽管最近已证明发生在冷点区域的错义变异不太可能致病。50已发现乳腺癌基因TP53中的大多数致病变异是错义变体,而其他两个乳腺癌基因ATM和CHEK2*中的错义变体在频率方面可能与 PTV 同等甚至更重要。49
如图 S3 所示,PHRED 分数与预测的功能显着相关,因此表明我们的关联测试中罕见的错义变体具有很强的功能相关性。对于p < 0.05 (表 S5 ) 测试的基因中所有罕见的非同义变体(主要是错义),PHRED 中位数为 15.1,而 FDR < 0.05 ( p < 1.5e-03) 测试的基因中的变体具有中位数 PHRED 分数23。这再次表明高度重要基因中的错义变体在功能上比不重要基因中的变体更具功能相关性。
4.3 丰富途径的相关性
在表 3中,来自 ProxECAT 关联分析的 20 个重要基因富集的唯一途径是核心基质体途径,包括 ECM 糖蛋白、胶原蛋白和蛋白聚糖。在最近对 FPC 和散发性胰腺癌基因表达数据的基于网络的分析中,发现细胞外结构和 ECM 组织的活性增加。51有趣的是,两种不同的组学方法(WGS 和转录组学)发现了 ECM 通路的显着关联,这表明检测到的罕见变异可能参与 ECM 通路基因的调节。在通路中的 4 个重叠基因中,LAMB4(层粘连蛋白基因家族的亚基)是表达最广泛的 ECM 蛋白之一,在多个器官中发挥许多重要功能。52 COL4A2、DMBT1、BMPER也高度参与 ECM 通路,因为COL4A2是几乎所有基底膜中最丰富的成分之一——基底膜是一种薄而柔韧的片状 ECM,可提供细胞和组织支持。53 DMBT1编码负责上皮间质转化和分化的 ECM 蛋白。54 BMPER(BMP 结合内皮调节剂)已被证明在多种恶性肿瘤(肺、结肠和子宫颈)中高度表达。55
PTV 基因富集的五种途径之一,即小分子的运输,已知会影响癌症的发展、转移和对治疗的反应。56第二个丰富的途径是嗜丁酸 (BTN) 家族相互作用。嗜丁酸被视为新兴的免疫调节剂家族。57 BTN 基因在功能上与 T 细胞抑制和上皮细胞-T 细胞相互作用的调节有关,因此在遗传上与炎症性疾病有关。BTN 成员基因之一 BTN3A2被确定为三阴性乳腺癌的独立预后标志物。58
另一个显着丰富的途径与先天免疫系统有关。先天免疫系统的细胞包括:粒细胞、单核细胞、巨噬细胞和树突状细胞,在癌细胞识别以及炎症和抗肿瘤免疫反应的启动中起重要作用。59然而,持续性炎症已被证明是许多恶性肿瘤中肿瘤进展的驱动因素,它通过促进免疫抑制和癌症转移,如 PDAC 的情况。60
PTV 基因中其他两个显着丰富的途径是离子通道转运和刺激传感通道。两者都涉及信号转导机制和细胞根据不同离子通道的特征组合检测特定刺激的能力。众所周知,离子通道调节多种细胞功能,并参与细胞外事件和细胞内信号通路之间的通讯。离子通道活性的改变可能对不受控制的增殖、促进癌症的侵袭和迁移产生影响。研究表明,某些离子通道参与了 PDAC 的异常肿瘤生长和转移过程。61参与癌症发展的多种途径的显着富集表明,FDR 中罕见的 PTV 可能会影响广泛的功能过程,这些过程共同导致 FPC 家族中 PDAC 风险的增加。
4.4 重叠癌症驱动基因的相关性
有趣的是,表 S2中的基因(主要代表私人突变的 PTV)富含癌症驱动基因,其突变为癌细胞提供了生长优势。2312 个 PTV 基因与已知癌症驱动基因的高度显着重叠表明罕见的种系突变可能构成 PDAC 发展的潜在风险。在这 12 个基因中,DIS3具有等位基因特异性表达,在胰腺癌风险增加等位基因携带者中观察到表达降低,因此可能影响核 RNA 加工。62在另一个基因中,TNFRSF10C(TNF 受体超家族成员 10c),在胰腺癌细胞系中经常观察到启动子区域的异常甲基化,这表明该基因的遗传变异可以通过表观遗传机制调节基因活性。63有趣的是,同一基因家族的两个成员TNFRSF11A和TNFRSF17的表达水平最近已被证明与 PDAC 亚组在进展和治疗反应方面相关。64 TMPRSS15(跨膜丝氨酸蛋白酶 15) 编码一种酶,可将胰酶原胰蛋白酶原转化为胰蛋白酶,从而激活其他酶原,包括胰凝乳蛋白酶原和羧肽酶原。在慢性胰腺炎患者的基因中发现了强烈的遗传异质性。65 ZNF233(锌指蛋白 233)在核心信号通路的全球基因组分析中被发现与胰腺癌有关。66
总体而言,对癌症驱动基因中罕见的种系 PTV 的观察提供了新的数据,以支持 FPC 易感家族中 FDR 发生癌症的潜在风险增加,并揭示了 FPC 易感性的高度遗传异质性。
4.5 优势和局限
与胰腺癌和其他癌症类型相关的多个突变的鉴定验证了 ProxECAT 测试作为使用现有大型外部测序数据库作为对照的罕见变异关联研究的有用工具。最重要的是,在 FPC 患者的一级亲属中发现的罕见变异可能共同导致疾病在家族内的共同聚集。研究设计的一个限制是,这种分析无法确定检测到的罕见变异与 FPC 的直接关联,因为并非所有一级亲属都可能发展为 PDAC。一级亲属中 PDAC 发展的前瞻性后续数据将提供有用的信息,以验证已识别的变异对PDAC风险的潜在关联和预测价值。
ProxECAT 是一种负担测试,与单变体测试相比,它折叠稀有变体数据以估计它们在基因区域内的富集度以实现统计功效。67通过比较病例和对照之间功能变异与同义变异的比率差异,ProxECAT 允许在统计测试中使用外部对照。然而,这也带来了代价,因为与直接比较病例组和对照组之间的功能变体相比,这种比较可能不够有力。尽管如此,从外周血中获得的高质量 DNA 样本和使用 gnomAD 数据库的外部对照的大样本量弥补了功率问题,从而确保了 ProxECAT 分析的重要统计测试。
结论
FPC 患者的亲属患 PDAC 的风险很高。分析癌症易感性的遗传变异对于风险评估和早期干预至关重要。我们对 FPC 患者一级亲属中罕见变异的 WGS 分析确定了生殖系突变和在癌症相关基因和驱动基因中复发的 PTV。鉴定出的罕见种系变异有助于了解 FPC 患者亲属癌症易感性的遗传基础。