这次是GBD数据库的第14篇推文,
这两期,我们将主要讲解GBD数据库的预测内容,这期主要先讲解第一个预测包——Nordpred包
一、数据准备
首先我们需要下载GBD预测所需要的人群
这个数据是在GBD官网找到的,是用2017GBD数据库预测的人群数,大家也可以使用WHO的预测数据,但个人觉得GBD数据库官网提供的数据库与GBD数据库更加贴合,网址如下:
GBD的人群预测https://ghdx.healthdata.org/record/ihme-data/global-population-forecasts-2017-2100
另外,我们需要准备GBD数据库的标准人群结构,用来计算GBD数据库的年龄校正的发病率,数据的获取来自发表在lancet正刊上的人群结构,大家可以看下这个人群结构数据:
我们设置工作路径,读取对应的R包,function_sum_year的功能是将单年份合并成5年份的period
我们读取发病数据,年龄结构数据以及设置年龄分层,这里设置了3个年龄结构,age是为了提取食管癌的数据,因为GBD2019的食管癌数据只有从20-24岁开始的数据,age_2是为了提取人群的年龄结构人群的数据,age_3是由于nordpred软件包只能读取18个年龄层的结构数据,所以最终进入到模型里的人群以及食管癌的结构数据是以age_3为主。
获取标准人群结构数据,并调整数据结构
我们根据具体的疾病调整相应的年龄结构数据,最后形成age_3的年龄结构的数据
根据以上代码调整后,可以看下食管癌的年龄结构数据
同样的,我们计算女性的年龄结构数据
以上我们已经整理了男性和女性食管癌的年龄结构数据
接着,我们整理人口学数据,首先我们先整理1990-2019的人口学数据
接着,我们再整理2020-2034的人口学预测数据
接着,我们需要将人口数据也整理成age_3的结构形式
接着,我们进一步调整人口学数据,最后整合成Nordpred可以识别的结构数据
我们同样看下整理后的人群数据结构
接着我们需要将一年的数据通过一个函数function_sum_year5将其转换成5年为一组的数据,简单来讲就是5年为一个单位,每一个年龄层5年的数据相加即可得到5year period的数据,这个function是我在前面function_year5的基础上修改形成的。
接着我们采用nordpred进行预测,
这里简单介绍下功能(个人理解,不一定对):cuttrend这个一直理解不了,所以这里我也给不了很好的解释
Norperiods是指距离从现在往前用多少个period进行预测,我这里选择4:6,软件可以根据计算选择最佳的period,startestage是指纳入模型进行回归分析的最年轻的年龄组,startuseage指的是用来预测的最年轻的年龄组。Linkfunc可以选择power5或者poisson功能。
由于男性和女性的发病率有所不同,个人认为比较严谨的方法是采用分开预测的方法进行预测,因此这里展示采用分开预测的方法进行计算。
模型运算好后,我们再计算男性、女性的年龄分层的发病数、发病率、总发病数以及年龄校正后的发病率
我们可以具体看下数据结构
这个是年龄层的发病率数据
这个是年龄层的发病数
这个是全年龄段的发病数
这个是年龄校正后的发病率
最后再根据男性和女性的数据,算出总的数据,包括每个年龄层的发病率、发病数、总发病数、年龄校正的发病率。
最后大家根据这些结果可以进行进一步的分析,包括采用ggplot2进行结果展示。