[学习]写在第一周之描述性统计

[学习]写在第一周之描述性统计


偶然间从朋友圈得知居士的公众号,然后进入了数据学习小组,觉得这是一个很好的学习形式和契机。跟着一群有学习热情的人,一起学习和分享这个应该是最好的学习形式了,虽然我自己没有办法保证我一定能够坚持学下去,但是我希望能够利用这个机会建立和从别的人身上学习一些良好的学习习惯,这个是会很受益的。

第一周来学习一些描述性统计。

虽然都是一些非常基础的概念,但是在具体的业务中针对不同的场景应该会有不同的理解。

思维导图先上。

1.数据集中趋势

众数不一定只有一个,可能存在好几个。

中位数是特殊的分位数,也就是二分位数。中位数计算要考虑奇偶数。

平均数应该包括简单平均数,加权平均数,几何平均数,调和平均数。

给个平均数的例题给大家参考

假如你去登山,以6千米/小时的速度上山,以4千米/小时的速度原路下山,求上、下山的平均速度。这个就是典型的调和平均数计算。

众数(适用于分类、顺序、数值型数据)

不受极端值影响

具有不惟一性----出现次数最多的那个

数据分布偏斜程度较大时应用

中位数(适用于顺序、数值型数据)

不受极端值影响----数到中间那个

数据分布偏斜程度较大时应用

平均数(适用于数值型数据)

易受极端值影响

数学性质优良----平衡跷跷板的那个

数据对称分布或接近对称分布时应用

2.数据离散程度

异众比率:非众数组的频数占总频数的比率

用于衡量众数的代表性: 其值越小,众数的代表性越好。

四分位差:上四分位数与下四分位数之差,用于衡量中位数的代表性。

极差:一组数据的最大值与最小值之差,易受极端值影响。

方差与标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。

要注意样本方差与总体方差的区别。

自由度的概念,附上一个知乎的链接,讲的很容易懂。

为什么样本方差(sample variance)的分母是 n-1?

标准分数:便于对不同变量的值进行对比,用于对变量的标准化处理。计算公式如下:

Z_{i} =\frac{x_{i} -\tilde{x} }{s}

离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响。

离散系数计算公式为:

V_{s} =\frac{s}{\bar{x} }

V越大,说明标准差占均值的比重越大,数据越分散。


3.数据分布形态

用来形容数据分布形态比较常见的就是偏态系数和峰态系数,这两个的公式比较复杂,在需要使用的时候可以自行查找。记住偏态是三次方,峰态是四次方。


偏态系数

偏态系数= 0  为 对称 分布

        偏态系数> 0 为 右偏 分布

        偏态系数< 0 为 左偏 分布


关于偏态,大家常说的“长尾”效应我个人理解是跟偏态有关的,应该是一个偏态系数较大的右偏分布,当尾巴朝向哪边,就是哪边的偏分布。

附上一个常见的长尾分布图


峰态系数

        峰态系数= 0  为峰度适中。

        峰态系数< 0 为 扁平 分布。

         峰态系数> 0  为 尖峰 分布。系数越大,形状越尖。


以上就是这一周关于描述性统计的基础知识,主要还是把以前上课的知识拿出来回顾了一下,真正的理解这些概念,在以后活学活用还是需要一定的操练,并且运用工具来实现它。

祝各位周末愉快,学习不止!


PRECIOUS!

Adam

2019-07-21

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容

  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,184评论 0 0
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 1,765评论 0 6
  • 理论篇 数据的集中趋势众数数据集合中出现次数最多的数为众数,可能不止一个数值。中位数对于数据集合,按照从小到大或从...
    evanzh7阅读 702评论 0 0
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,436评论 5 8
  • 0x00 前言 参加居士的数据挖掘学习小组,按周产出笔记,这周的学习内容是 【数据的描述性统计】,按照居士的推荐,...
    曹操a阅读 763评论 0 0