来源:Lu AT, Quach A, Wilson JG, Reiner AP, Aviv A, Raj K, Hou L, Baccarelli AA, Li Y, Stewart JD, Whitsel EA, Assimes TL, Ferrucci L, et al. DNA methylation GrimAge strongly predicts lifespan and healthspan. Aging (Albany NY). 2019; 11:303-327. https://doi.org/10.18632/aging.101684
本文主要目的为介绍GrimAge的详细构建步骤。
1. 所用数据介绍
2356个血液样本,来源于the Framingham heart study (FHS) Offspring Cohort。
训练集:测试集 = 7:3,平均年龄分别为66和67岁。
每个样本带有的信息:性别、年龄、88个血浆中基于免疫分析获得的蛋白指标测量值(plasma protein variables)、甲基化芯片结果。
2. 构建步骤
两步法:
2.1 DNAm-based surrogate biomarkers of plasma proteins and smoking pack-years
用训练集训练88个线性回归模型分别预测88种蛋白指标的值,输入数据包括甲基化芯片值、性别、年龄。
采用ElasticNet线性回归模型,自动选择组合与预测蛋白指标最相关的位点。
结果:获得88个分别用于预测88种蛋白指标的线性模型。大多数模型最终所选择的CpG位点少于200个。
除了88种蛋白指标,作者用同样的方法还训练了一个预测smoking pack year(代表你一辈子吸了多少根烟)的线性模型。
虽然作者训练了88个用于预测各种蛋白指标的模型,但大部分模型的预测效果不好(表1),其中只有12个模型在测试集里的相关系数大于0.35;另外吸烟模型的相关系数为0.66。于是作者只留下这13个模型继续往下分析。
2.2 Constructing a composite biomarker of lifespan based on surrogate biomarkers
接下来作者训练了一个预测死亡率的模型:
因变量Y为样本收集日期距离该个体死亡的时间;
自变量X包括:甲基化预测吸烟包数、年龄、性别和上面12种蛋白指标的甲基化模型预测值。
算法:Elastic net Cox regression model
最终该模型自动选择了如下变量组合:甲基化预测吸烟包数、年龄、性别和其中蛋白指标的甲基化模型预测值(表1红框)。
作者然后将上面公式左边的线性组合部分经过线性转换,就得到了最后的年龄预测模型即GrimAge。线性转换中所用到的截距和斜率是这样取得的:强制使最终GrimAge的平均值和方差与实际年龄Age的分布一致。从图一可以发现,作者最终所用的截距和斜率分别为-50.28483和8.3268。
我们来看一下作者提供的各个变量的系数:
AgeAccelGrim,基于GrimAge计算的age acceleration。作者为了使AgeAccelGrim与Age不相关,先建立了GrimAge与Age的线性回归模型,所以
最后来看一下作者提供的GrimAge与Age在不同数据集里的相关性情况吧:
计算GrimAge需要1030个CpG位点及相应的系数,但是作者申请了专利没有公开。
欢迎对这个模型、文章感兴趣的朋友与我交流(wangyucheng511@gmail.com)