变量及资料类型

变量及资料类型

  • 变量的类型决定资料的类型
  • 一份统计资料中可能包括所有的变量类型


    变量及资料类型示意图

变量类型

变量按变量值的性质分为不同类型:

类型 取值 举例
名义型变量 不连续数值 性别、种族、肤色、血型、颜色
有序型变量 不连续数值 喜欢程度(不喜欢/一般/喜欢/很喜欢)、临床检验结果(-/+/++/+++)
离散型变量 不连续数值 人数、红细胞计数
连续型变量 连续数值 身高、体重、血压

变量测度

在介绍变量的测量尺度( Measure of variable )之前,先简单的介绍一下测量(measurement)。测量就是将数分配给一个对象(object)或者事件(event)的特征(characteristic),这样可以使其与其他对象或特征进行比较。也就是用数值对事物或其特征进行比较。尺度(scale)就是为了测量而建立的准则。

在统计学中,变量的测量尺度分为以下四种:

  1. 定类尺度/明目尺度(nominal scale)

    定类尺度是根据事物的特点对其进行分类的一种尺度,赋予定类尺度的数值只是为了区分种类,没有顺序大小而言。可以将性别分为男女,男赋值1,女赋值2,虽然2>1,但并不代表女>男。同时在这里数值1与2也不可以相加,因为男+女并没有任何的意义。因此定类尺度并不能够进行数学计算。这样的例子还有民族、血型、颜色、肤色、电话号码等。

  2. 顺序尺度/等级尺度(ordinal scale)

    顺序尺度是给事物区分等级的一种尺度,是一种分类(即包含定类尺度的特点)。比如喜欢的程度有喜欢、比较喜欢、非常喜欢,学历有小学、初中、高中、大学、研究生,年级有一、二、三等。赋予的数值也是为了区分其等级,如学历的小学是1、初中是2、高中是3、大学是4、研究生是5,但是却不能将其相加,因为不能说小学(1)+初中(2)就等于高中(3)。等级之间存在差别,但是具体差异的程度却不是明确的,比如喜欢的程度中喜欢是1、比较喜欢是2、非常喜欢是3,却不能说非常喜欢(3)减去比较喜欢(2)就是喜欢(1)。因此顺序尺度的数值也是不可以进行数学计算的。

  3. 间隔尺度/等距尺度(interval scale)

    间隔尺度是指事物的数值之间具有一定的间隔,这个间隔是等距的,因此也被成为是等距尺度。比如华氏温度(不是温度差)、时间(不是小时),这样的数据是连续的,同时没有实际意义的0点。因为0°C并不代表没有温度,00:00也不代表是没有的时间。不过1°C、2°C、3°C、4°C...的间隔都是1°C;时间也是比如1:00、2:00、3:00间隔是1个小时。间隔尺度的对象有顺序、可以进行比较,也就是具有定类尺度和顺序尺度的所有特点。比如3点比2点晚,同时晚了1个小时(3-2=1);2017年比2018年早,而且早一年(2018-2017=1)。这类尺度研究的事物只能对其间隔进行计算,也就是说只可进行加减计算,却不能进行乘除计算,比如1点*2点并没有什么意义,2018年/2017年也没有任何意义。

  4. 比例尺度/定比尺度(ratio scale)

    有这样一类数据,连续的,同时存在类别、顺序、可以比较大小、有差异、可以相加、可以计算比例、也可以相乘,而且0点具有实际的意义,比如收入(income),0就代表没有任何收入,一个公司部门4个员工的月收入是A:2000、B:5000、C:8000、D:10000,B比A的月收入多3000,C的月收入是A的4倍,D的月收入是B的2倍。这样的数据还有,绝对温度,利润等。

参考链接:https://blog.csdn.net/leonie17/article/details/80532521

资料类型

  1. 计量资料

    计量资料指连续的数据,通常有具体的数值,如身高、体重、血压、血红蛋白胆红素和白蛋白等。计量资料的数据分布特征有三种情况:集中趋势(涉及量:均数、几何均数、中位数)、离散程度(涉及量:极差、百分位数和四分位数间距、方差、标准差、变异系数)、分布形状(正态分布、偏态分布);计量资料的统计推断包括参数估计和假设检验。

    连续型资料:数据/变量在区间上分布的原始数据
    离散型资料:数据/变量在离散点上分布的原始数据

  2. 等级资料

    介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。如临床检验结果分为-、+、++、+++,疼痛等症状的严重程度分为0(无疼痛)、1(轻度)、2(中度)、3(重度)等。

  3. 计数资料

    计数资料是指先将观察单位按其性质或类别分组,然后清点各组观察单位个数所得的资料。其特点是:对每组观察单位只研究其数量的多少,而不具体考虑某指标的质量特征,属非连续性资料。统计指标是各个属性或类别的计数,率,结构百分比等。

三种类型资料示意图

三种资料类型之间的相互转换

  1. 计量资料转换为等级资料

    这种情况一般是为了使分组后有足够多的分母。例如,上面那个例子中的一组20 ~ 40岁成年人的血压可以转换为等级数据:<8、8-、12-、15-、17-五个等级的血压。这样就变成了等级数据。

  2. 计量资料转换为计数资料

    这种情况一般是用于计算发病率。还是用上面那个例子,患者的血压是本来是计量资料。但是,我们可以根据诊断标准,将其转换成正常血压或者高血压,这就变成了计数资料。也可以据此计算出高血压的发病率。

  3. 计数或者等级资料转换成计量资料

    这种形式多以评分的形式出现。例如,临床上常用的疼痛评分系统。疼痛,作为一种非常主观的感受,是一种定性数据。可以作为计数数据,区分为无痛感和有痛感两种类型;也可以作为等级数据,区分为无痛感,轻微痛感,中度痛感,强烈痛感等级别。但是,如果我们要更加精确一点的话,可以采用临床上常用的0~10分的评分系统,让患者自己来打分。0分为无痛感;10分为最强烈的痛感。这样,就可以轻易地转换成为计量资料。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,649评论 0 3
  • 统计学(stastics)是收集、分析和解释数据的科学。 描述统计(descriptive statistics)...
    没有那么委屈阅读 16,048评论 1 5
  • 周末是弯道超车日 中午陪娃睡觉时给他阅读《the hug》,安利他早点睡觉下午起床跟他一起做个小刺猬。 下午娃起床...
    颜小彦_d20b阅读 319评论 0 0
  • 岁月是一条深邃的长河,悠悠流过几十个春与秋,冬与夏。 人生是一个复杂的剧本,徐徐演绎不同的故与事,缘与分。 小时候...
    清浅清欢阅读 578评论 3 4
  • 大唐帝国从“贞观之治”到“开元盛世”,唐太宗李世民与唐玄宗李隆基之间除了一个唐高宗外,不能忽略的就是这个特殊的朝代...
    文史知识阅读 906评论 2 22