Q:老师,请教您个问题,我想对多个变量做多因素生存分析,有两个想法:1.上述单因素生存分析中,有显著差别的因素单独收集起来,对这些在单因素生存分析中有差异的因素进行多因素分析,方法是COX回归;2.无视单因素分析结果,所有临床指标进行多因素生存分析,方法仍然是COX分析?到底哪个正确,小张该怎么办呢
A:cox模型,先做单变量,然后做multivariate即可
大神一句话,菜鸟跑断腿——所以,开始吧,少年
1.单因素分析:用kaplan-meier生存分析中的log rank test 中的P值
步骤1:录入数据,KM分析需要一个分组变量(即你需要分析的单因素)+一个分组变量(结局)+一个数值变量(即时间)
结果如上,log rank test 中的P值即为所求单因素生存分析的P值
步骤2:我会得到好多个P值。如有有漂亮的生存曲线图,选择OUTPUT相应格式的图,放到文章中,此即为单因素的生存分析
多因素分析:单因素生存分析中,有显著差别的因素单独收集起来,对这些在单因素生存分析中有差异的因素进行多因素分析,方法是COX回归
但是做之前,我们需要明确,COX回归需要满足的条件
然后采用这个方法
但是,丁香园有个老师说:
cox对样本量是有要求的,样本中完整病例(如果以死亡为终点,也就是已经死了的病例)数要大于因素数的10倍。还要求各因素之间没有相互作用,也没有共线性。
如果按照这个要求,我筛选了4个变量,是不是死亡例数应该大于40?
后记彩蛋:
1.一般需要在文中需要描述的值,小张一开始错误认为median是生存时间的中位数,不是的呢,超开心。
2.还有一个问题就是,小张选取的自变量是连续变量(比如年龄什么的),像性别肯定是分类变量,但是在单因素分析时,用ROC曲线中得到的临界值分组了,那么是否分组变量会比连续变量损失了一部分数据呢?那我做COX回归的时候,到底该用连续变量还是分组呢?这个问题,也值得我后续在思考