变量及资料类型
- 变量的类型决定资料的类型
-
一份统计资料中可能包括所有的变量类型
变量类型
变量按变量值的性质分为不同类型:
类型 | 取值 | 举例 |
---|---|---|
名义型变量 | 不连续数值 | 性别、种族、肤色、血型、颜色 |
有序型变量 | 不连续数值 | 喜欢程度(不喜欢/一般/喜欢/很喜欢)、临床检验结果(-/+/++/+++) |
离散型变量 | 不连续数值 | 人数、红细胞计数 |
连续型变量 | 连续数值 | 身高、体重、血压 |
变量测度
在介绍变量的测量尺度( Measure of variable )之前,先简单的介绍一下测量(measurement)。测量就是将数分配给一个对象(object)或者事件(event)的特征(characteristic),这样可以使其与其他对象或特征进行比较。也就是用数值对事物或其特征进行比较。尺度(scale)就是为了测量而建立的准则。
在统计学中,变量的测量尺度分为以下四种:
-
定类尺度/明目尺度(nominal scale)
定类尺度是根据事物的特点对其进行分类的一种尺度,赋予定类尺度的数值只是为了区分种类,没有顺序大小而言。可以将性别分为男女,男赋值1,女赋值2,虽然2>1,但并不代表女>男。同时在这里数值1与2也不可以相加,因为男+女并没有任何的意义。因此定类尺度并不能够进行数学计算。这样的例子还有民族、血型、颜色、肤色、电话号码等。
-
顺序尺度/等级尺度(ordinal scale)
顺序尺度是给事物区分等级的一种尺度,是一种分类(即包含定类尺度的特点)。比如喜欢的程度有喜欢、比较喜欢、非常喜欢,学历有小学、初中、高中、大学、研究生,年级有一、二、三等。赋予的数值也是为了区分其等级,如学历的小学是1、初中是2、高中是3、大学是4、研究生是5,但是却不能将其相加,因为不能说小学(1)+初中(2)就等于高中(3)。等级之间存在差别,但是具体差异的程度却不是明确的,比如喜欢的程度中喜欢是1、比较喜欢是2、非常喜欢是3,却不能说非常喜欢(3)减去比较喜欢(2)就是喜欢(1)。因此顺序尺度的数值也是不可以进行数学计算的。
-
间隔尺度/等距尺度(interval scale)
间隔尺度是指事物的数值之间具有一定的间隔,这个间隔是等距的,因此也被成为是等距尺度。比如华氏温度(不是温度差)、时间(不是小时),这样的数据是连续的,同时没有实际意义的0点。因为0°C并不代表没有温度,00:00也不代表是没有的时间。不过1°C、2°C、3°C、4°C...的间隔都是1°C;时间也是比如1:00、2:00、3:00间隔是1个小时。间隔尺度的对象有顺序、可以进行比较,也就是具有定类尺度和顺序尺度的所有特点。比如3点比2点晚,同时晚了1个小时(3-2=1);2017年比2018年早,而且早一年(2018-2017=1)。这类尺度研究的事物只能对其间隔进行计算,也就是说只可进行加减计算,却不能进行乘除计算,比如1点*2点并没有什么意义,2018年/2017年也没有任何意义。
-
比例尺度/定比尺度(ratio scale)
有这样一类数据,连续的,同时存在类别、顺序、可以比较大小、有差异、可以相加、可以计算比例、也可以相乘,而且0点具有实际的意义,比如收入(income),0就代表没有任何收入,一个公司部门4个员工的月收入是A:2000、B:5000、C:8000、D:10000,B比A的月收入多3000,C的月收入是A的4倍,D的月收入是B的2倍。这样的数据还有,绝对温度,利润等。
参考链接:https://blog.csdn.net/leonie17/article/details/80532521
资料类型
-
计量资料
计量资料指连续的数据,通常有具体的数值,如身高、体重、血压、血红蛋白、胆红素和白蛋白等。计量资料的数据分布特征有三种情况:集中趋势(涉及量:均数、几何均数、中位数)、离散程度(涉及量:极差、百分位数和四分位数间距、方差、标准差、变异系数)、分布形状(正态分布、偏态分布);计量资料的统计推断包括参数估计和假设检验。
连续型资料:数据/变量在区间上分布的原始数据
离散型资料:数据/变量在离散点上分布的原始数据 -
等级资料
介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。如临床检验结果分为-、+、++、+++,疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等。
-
计数资料
计数资料是指先将观察单位按其性质或类别分组,然后清点各组观察单位个数所得的资料。其特点是:对每组观察单位只研究其数量的多少,而不具体考虑某指标的质量特征,属非连续性资料。统计指标是各个属性或类别的计数,率,结构百分比等。
三种资料类型之间的相互转换
-
计量资料转换为等级资料
这种情况一般是为了使分组后有足够多的分母。例如,上面那个例子中的一组20 ~ 40岁成年人的血压可以转换为等级数据:<8、8-、12-、15-、17-五个等级的血压。这样就变成了等级数据。
-
计量资料转换为计数资料
这种情况一般是用于计算发病率。还是用上面那个例子,患者的血压是本来是计量资料。但是,我们可以根据诊断标准,将其转换成正常血压或者高血压,这就变成了计数资料。也可以据此计算出高血压的发病率。
-
计数或者等级资料转换成计量资料
这种形式多以评分的形式出现。例如,临床上常用的疼痛评分系统。疼痛,作为一种非常主观的感受,是一种定性数据。可以作为计数数据,区分为无痛感和有痛感两种类型;也可以作为等级数据,区分为无痛感,轻微痛感,中度痛感,强烈痛感等级别。但是,如果我们要更加精确一点的话,可以采用临床上常用的0~10分的评分系统,让患者自己来打分。0分为无痛感;10分为最强烈的痛感。这样,就可以轻易地转换成为计量资料。