数据格式规范,这些方法的格式你都get了吗?

正确的数据格式是分析的基础,一直以来大家问得最多的就是数据格式的问题。什么样的格式才能分析?为什么我的数据显示格式不对?怎么批量添加标签?针对这样那样的问题,今天我们就来总结一下。

一、格式规范

1、基础格式

数据格式是基础,其中我们最常见的数据格式是原始数据格式。下图即是一份原始数据,它的特点是:一行代表一个样本,一列代表一个属性。

这样的数据有多少样本,就需要录入多少行,100个样本录入一百行,每一行即代表一个样本的回答数据;每列代表一个属性即一个变量。而不能是已经进行过统计的数据。

2、文字标签

上传时数据须为数字格式,如果想让结果显示成具体的文字标签,而不是数字。可以在Excel中添加一个工作表批量为数据设置标签。

标签设置步骤如下:

第1个sheet里放收集到的数据;新建一个sheet“tags”放置标签。

“tags”工作表中共包括3列内容:“标题”、“数字”和“标签”

“标题”列,放置标题,且不能有完全相同一模一样的标题。

“数字”列,放置每项的数值,比如5个选项“1,2,3,4,5”就分5行放置。

“标签”列,放置对应数字的标签信息。

3、无法识别数据如何处理

有时上传数据会提示“无有效数据”或只识别出部分数据,大概率还是由于数据格式不规范导致的。

遇到上面的问题,可以按这样的步骤检查数据:

第一:如果EXCEL上传,数据应该放在第一个工作表里面,如果不是请调整后再上传。

第二:EXCEL数据中不能合并单元格,如果有合并单元格,请取消合并。

第三:数据第1行一定是标题,如果本该有标题但是为空,请处理后再上传。

二、常见方法格式

在日常分析中,有些分析方法使用的格式与常规的格式不太一样。因此我们除了用到原始数据,有时也需要根据所用的分析方法,将数据整理成可以分析的格式。

1、T检验、方差分析

T检验、方差分析都是研究不同组别的差异,比如不同学历时满意度的差异。因此数据格式中一定需要有组别X(比如学历)和分析项Y(比如满意度)。

有时候只有分析项(比如3个分析项),但是现在希望此3个分析项的差异,那么就需要对数据进行改造,自己加入一列‘组别’,然后把数据重叠起来得到分析项Y,类似如下图:

如果是用t检验对比两组数据,比如实验组和对照组,也需要加入一列‘组别’项,类似如下图:

2、配对T检验

配对数据的格式相对较为特殊,包括配对t 检验、配对卡方、配对样本Wilcoxon等。比如实验组和对照组数据的差异。如下图:

 

配对数据一般是在实验时使用,而且配对数据的特点为:行数一定完全相等并且只有两列。如果研究数据的行数不相等,那可能不是配对数据,如果还想对比差异,可能需要使用独立t 检验。

3、多选题

在问卷研究时会使用到多选题,多选题的数据格式比较特殊。比如一个多选题有4个选项,那么其数据中就会有4列,分别代表4个选项。而且使用数字1表示选中,数字0表示没有选中。如下图:

分析时将同一多选题下的选项一起放入进行分析才可以。

4、卡方检验

SPSSAU系统中的卡方检验,支持两种数据格式:一是常规格式,另一种是加权数据格式。

对于只有汇总结果的数据,无法整理成原始数据。此时就可以整理为加权数据格式。格式要求如下:

比如下图中X有2种情况,Y有3个情况,一种有2*3=6种组合,数据信息只有6种组别的汇总项(即加权项),分别是40,10,20,30,20,50;相当于总共有170个样本。整理为加权格式即只需要录入6行即可。

 

除卡方检验,涉及使用加权格式数据的分析方法还有很多,比如

5、重复测量方差

重复测量数据是指同一批样本(病例)在不同的时间点测量了多次数据,因此重复测量数据的特殊之处在于一定会有ID号(即样本或者病例号),以及时间点数据。

同一个ID会有多个时间点的数据,比如下面有12个样本(12个ID号),并且测量5个时间点。那么就一定会有12*5=60行数据。同一个ID号会重复5次,同一个时间点会重复12次。

 6、时间序列

时间序列的格式包括时间和实际分析项共两列。ARIMA预测、ADF检验、偏(自)相关图等方法均是使用此类格式的数据进行分析。

比如下图中年份就是时间项,“阿里双十一销售额(亿元)”就是实际分析项。分析时并不需要设置时间项,但研究人员整理的数据一定是类似如下图,从上至下的日期递增,因为算法在分析时也是默认按照从上至下递增进行计算。

 7、面板数据

面板模型是针对面板数据进行分析,面板数据是一种特殊的数据格式。比如当前研究100家公司5年的财务数据。100家公司,每家5年,最终会有100*5=500行数据。

如果说100家公司全部都有完整的5年数据,即100*5=500行数据,这种叫平衡面板数据。如果说某家公司只有3年的数据,意味着有2年的缺失数据,这种叫非平衡面板数据。

使用SPSSAU进行分析时,‘个体ID’就是下图中的‘公司编号’,‘时间’就是下图中的‘年份’。‘公司编号’一般是指上市公司的股票代码,也或者只是个编号均可;‘年份’一般是指年或者时间点。‘公司编号’和‘年份’两项共同用于告诉系统当前为面板数据,通常无其它意义。

三、综合评价中的数据格式

综合评价中各个方法所需要的数据格式都比较特殊,这里列出单独进行说明。

1、模糊综合评价

模糊综合评价是对具有多种属性的事物,综合各因素作出一个总体评价。

上传的数据一般包括三个部分:指标项、权重项、评语项。

其中指标项为参与评价的考核指标,1行放1个。

评语项,是指类似于{优秀,良好,一般,差} 或{非常满意,满意,一般,不满意,非常不满意}这样的评价标准。1列放1个评价项。

如果说各个指标项有着自己的权重,那么就需要单独用一列表示‘指标项权重值’,‘如果没有此数据,则默认各个指标的权重完全一致。

特别提示:一个表格对应的是一个评价对象的数据。如果有多个评价对象就需要构建多个表格矩阵,分别上传进行分析。

2、灰色关联法

灰色关联法研究数据之间的关联程度,即特征序列与母序列的关联性情况。母序列单独使用一列标识,每个特征序列都使用1列标识。下图中样本编号只是个编号无实际意义,用于标识下样本的ID号,一般是比如年份一类的数据信息,分析时并不需要使用。

3、AHP层次分析法

AHP层次分析法需要分别对各级指标两两比较得到判断矩阵,然后将指标数值填入白色单元格。

研究人员可修改指标项名称,以及白色单元格内的数字,‘蓝色’背景的信息会自动变化。

4、熵值法

熵值法用于指标的权重情况。1个指标占用1列数据。下图中样本编号只是个编号无实际意义,用于标识下样本的ID号,一般是比如年份一类的数据信息,分析时并不需要使用。

熵值法的原理是针对数据不确定性进行度量,从而计算权重。无论是什么数据(包括面板数据),均可正常的进行熵值法,一般不需要进行处理。

当然面板数据进行熵值法分析时,也可以先筛选出不同的年份,重复进行多次熵值法均可。

5、TOPSIS法

TOPSIS法用于研究指标与理想解的接近度情况。1个指标占用1列数据。1个研究对象为1行,但研究对象在分析时并不需要使用,SPSSAU默认会从上到下依次编号。

6、RSR秩和比

RSR秩和比可分析研究对象在‘研究指标’上的综合表现水平情况。数据格式上需要1列表示1上研究指标,1行表示1个研究对象,如下图所示:

7、耦合协调度

耦合协调度研究不同系统之间的耦合协调情况,因此1列表示1个系统的数据,1行表示1个研究对象,其数据格式如下图所示:

 

8、熵权TOPSIS

熵权TOPSIS法用于研究指标与理想解的接近度情况。1个指标占用1列数据。1个研究对象为1行,但研究对象在分析时并不需要使用,SPSSAU默认会从上到下依次编号。

 

9、灰色预测模型

灰色预测模型可针对数量非常少、数据完整性和可靠性较低的数据序列进行有效预测。

灰色预测模型适用于数量少(比如20个以内)时使用,大量数据时不适合;整理数据时1列年份1列实际分析项,但年份在分析时并不需要使用,SPSSAU默认会从上到下依次编号。

实际上还有更多数据格式,更多内容请查看帮助手册说明,这里就不再一一介绍。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容