丁香公开课学习笔记
几个重要的统计学概念
变异:样本内个体间的差异
同质:样本间个体的相同点就是同质
分类变量:分类,类比之间无大小之分
有序变量:分类,类别之间有大小之分,如肿瘤分级
连续变量:连续值
离散变量:计数变量,只能用自然数或整数来计数的。次数,个数,台数等等。
频率:某个实验结果出现次数/所有实验次数;当次数足够多时,频率会趋近与概率
概率:是某现象的固有属性。硬币只有两面,概率都是一半,不会因为抛硬币次数无关
抽样误差:除非你是对总体进行了研究,否则你是不可避免的,只能减小,没有办法消除。通过标准误(S1越大,抽样误差越大),或可信区间的宽窄评估(最大,抽样误差越大)。
系统误差:多数是由于实验设计的问题造成的误差/偏移,通过纠正实验设计方法进行校正,是可以消除的。对原始研究进行评估的时候,评估的就是偏移,系统误差。
均数:反映正态分布的集中趋势
中位数:反映偏态分布的集中趋势
标准差:反映正态分布数据的离散趋势
四分位数间距:反映正态或偏态数据的离散趋势
方差:是标准差的平方,反映的也是数据的离散趋势
以上均数,中位数,标准差,方差,四分位数都是对数据的描述
标准误和可信区间:反映的都是抽样误差的大小,样本对整体的推断
统计数据与临床资料的一般分类:
统计图表核心在于准确和规范
计量资料的相关分析
线性相关:适用于二元正太分布的统计资料,用person相关系数表示
秩相关:总体分布未知或等级资料等,所以不符合双变量正太分布的都用sperman相关系数
计量资料的因果联系
简单线性回归:因变量(Y)为连续变量,自变量(X)仅有一个
多重线性回归:因变量(Y)为连续变量,自变量(Xi)有多个(多个里面不强求都是连续变量,分类也行)
分类资料的统计分析
四格表统计分析
一般四格表:方差检验,Fisher精确检验
配对四格表:McNemar 检验,Kappa检验
列联表(RxC)
X,Y皆为分类变量且属性不同,属于双向无序表:方差检验,Fisher精确检验
(检验结果反映的是构成比是否具有差异,不反映大小强度关系)
X为分类,Y为有序变量,属于单项有序表:H秩和检验,Ridit分析,有序变量的逻辑回归
X,Y皆为有序变量且属性不同,属于双向有序表:关心同组差别,按单项有序表处理
是否相关,用Sperman秩和相关或典型相关分析
是否存在直线变化,用线性趋势检验
X,Y皆为有序变量且属性相同,属于双向有序表:一致性检验(Kappa检验)
分类资料--因果关系
非条件逻辑回归:非配对设计
条件逻辑回归:配对设计
三大回归选择
因变量(Y)连续变量 :简单/多重线性回归
因变量(Y)分类变量 (无论是二分类,多分类,等级变量):逻辑回归
因变量(Y)时间变量和二分类变量:COX回归
不需要管自变量(X),可以是连续变量、等级变量和分类变量,分类变量转换为哑变量进行处理,等级变量按连续变量或哑变量进行处理