Week01

第一次学统计学是在大学,当时没有什么感知,第二次学统计学是在研究生的时候,又结合了SPSS实战,对统计学就有了更深的认识。毕业后第一份工作就是市场调研写统计分析报告,和统计结下了不解之缘。后面做数据分析,一直和数据打交道。这次参加居士的学习班,再次重温统计学,重新当一回学生,感谢居士提供的平台!

统计学含义:通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。

统计学推荐书目:《深入浅出统计学》、《人人都会数据分析》

关于数据的描述,给出一组数据,有哪些不同的维度可以描述?

1、集中趋势

数据的集中趋势,从字面的理解即反映数据的集中程度,那么我们就需要寻找到反映事物特征的数据集合的代表值,这个代表值可以较好的反映事物目前所处的位置和发展水平,通过多次的测量和比较,还能说明事物的发展和变化趋势。

1)平均数

平均数比较容易受到极端值的影响,平均数的使用也要注意,有时候具有很大的欺骗性。

*算数平均数:算数平均数是最常用,最典型的指标了,我们平常说的平均数就是算数平均数,计算方法也很简单,全部数相加除以个数。算数平均数可以看作是加权平均值在所有数的权相等时的特殊情况。

*加权平均值:在一组数据中,有时并不是所有数据都同等重要,因此需要用加权平均值来反映数据的集中趋势。

*几何平均值:当一些数据之间的关系为乘除关系时,我们就需要用到几何平均值了。

2)中位数

中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数。中位数与算数平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

3)众数

众数是指在数据集合中出现次数最多的数值。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。一组数据中,众数有可能没有,也有可能有多个。

4) 分位数

分位数是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。常见的有中位数(即二分位数)、四分位数、十分位数、百分位数等。

四分位数与中位数类似,对于一组数据,将所有数据按照大小顺序从低到高排列,并分成四等份,处于三个分割点位置的数值就时四分位数。

2、离中趋势

数值型数据的离中趋势指标有极差,平均差,方差和标准差,极差等。

1)极差:极差用于查看数据集合的离散和集中程度,又称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离(范围)。

2)平均差:平均差度量的是数据集合中各个数据与算术平均值之间的偏离,各个数据与算术平均值的偏差的绝对值之和,再求平均,即为平均差。对于任意一个数据集合,表示其离散程度的一种容易想到的度量方式就是与算数平均值的偏离,平均差就是这样一种度量指标。

3)方差和标准差:在统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离,方差利用平方消除了离差和等于0的问题,与平均差的绝对值有异曲同工之妙。但方差的局限性是,方差夸大了数据集合的离散程度。

3、数据的分布形态

数据的三个描述维度是数据的分布形态,通过分布形态可以比较形象观察数据。而数据的分布形态中正态分布是最常用的,但实际上,数据的分布形态各异。为了衡量数据分布与正态分布的偏离程度,就引入了偏态和峰态的概念,它们对应的指标分别为偏态系数和峰态系数。

1)偏度系数:偏度是描述变量取值分布对称性的统计量,通过偏度系数来测量数据分布的不对称程度以及方向。例如正态分布就是对称分布,它的均值、中位数和众数将重合。若以均值为参考点,位于均值左侧的数据较多,长尾拖在右侧,称为右偏分布,此时中位数小于平均数;若位于均值右侧数据较多,则长尾拖在左侧,称为左偏分布,此时平均数小于中位数。

2)峰度系数:峰度系数是描述数据分布陡峭或平滑的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,865评论 0 3
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,436评论 5 8
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,655评论 0 3
  • 基本概念 统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于...
    拓季阅读 10,753评论 0 6
  • 早些时间也给自己立下今年的学习目标大数据架构师,为了这一目标也买了不少书籍,下了不少电子书,甚至有报班的...
    麦子星星阅读 1,517评论 0 1