昨天忘记说了,能考公务员就考公务员!尤其是江浙沪或者是大湾区的。
对很多初学者来说,从CRF上的数据到SDTM标准数据集,这一过程是怎样的不是很清楚,今天我就来讲讲。
拿下面的一个空白CRF来说,收集的是心电图的数据,我们知道这些数据肯定要放到EG domain里。
这个空白CRF上面(我标的数字有7个),分别对应到raw数据集里面有7个变量。(subjid几乎每个数据集都是默认存在的)
上面显示的就是我们从DM那边得到的数据,一行观测可以理解为CRA在CRF上记录了一页数据,每一个变量分别代表图中的7个数字,比如1代表“EGPERF”,也就是“是否做心电图检查:”=EGPERF。6代表EGRESULT,也就是结 果:=“EGRESULT”。变量的值就代表CRA勾选了哪些值。
所以图中有16条观测,那么可以理解为CRA用了16张关于EG的CRF来记录受试者数据,然后输入到EDC系统中,不知道大家能不能抽象过来。
假设上面的数据集是经过DM清理之后发给我们的原始数据,这时候的数据并不符合CDISC标准,所以我们需要经过处理将他们转换成标准的SDTM数据结构。
首先就是注释CRF,将空白CRF上注释成拥有SDTM变量的CRF,然后写SPEC的SAS程序员将转换的过程方法写在EXCEL上,其他SAS程序员根据这个说明,结合aCRF将raw数据集转换成标准的EG数据集。
而且,注意到raw数据集是水平结构,但是SDTM一般是垂直结构,也就是说,你看raw数据集,HR和QTC都在一条水平线上,但是按照SDTM的要求,必须一个检查项一条记录,下面这个截图就是相对标准的EG数据集,符合SDTM标准的数据集。(只拿S001来举例子,当然少了很多其他关于EG的变量)
你们自己去看看理解吧。阿尼玛,真的太费时间了给你们举这些例子,又是截图又是注释的。
总之,我们SAS程序员的工作流程就是下面这张图所示:
然后过程之间肯定有很多小步骤。