初识统计学

一、什么是描述统计学

官方定义:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

通过四步法,收集获取数据、筛选处理数据、可视化展示数据、分析解释数据,找出数据中的规律,描述数据特征。

常用的几种指标:

1)平均值(算术平均值):

缺点:对异常数字不敏感;当数据中有异常数值时,不能用平均数

2)中位数:

中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

3)四分位数:

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

下界:数据集最小值

下四分位数Q1:将中位数到下界之间的数据一分为二

中位数Q2:中间的数字

上四分位数Q3:将中位数到上界之间的数据一分为二

上界:数据集最大值

四分位数计算方法:

第一步:计算中位数

如何计算中位数:

第二步:计算上下四分位数

四分位数实际可以应用在哪些场景:

1、比较数据

2、识别可能的异常值

4)标准差:

标标准差(Standard Deviation) ,是离均差平方的算术平均数的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。[4]

标准差能表示数据整体的波动。

标准差的计算公式:

数据集总体标准差:数据集除以N


样本标准差估计总体标准差时:数据集除以N-1


标准差的单位与计算数据的单位相同

标准差的缺点:如果两个数据差别比较大,那么就无法比较。用标准差除以数据集的平均值,就可以消除数据大小的差异。

(比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。)

标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。

5)标准分:

标准分,是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。

用平均值与标准差计算,标准分=(数值-平均值)/标准差

表示相对排名:某个数值距离平均值距离多少个标准差

标准分为零,则该数值等于平均值

大于零则该数值大于平均值

小于零则该数值小于平均值


二、熟悉数据集:

选择的数据集:淘宝展示广告点击率预估数据集

共有4个表,分别是

raw_sample:原始的样本骨架数据集

ad_feature:广告的基本信息数据集

user_profile:用户的基本信息数据集

raw_behavior_log:用户的行为日志数据集


数据集来源:

数据集-阿里云天池​tianchi.aliyun.com


表一原始样本骨架raw_sample(114万用户8天内的广告展示/点击日志(2600万条记录)

有6个字段信息:

(1) user_id:脱敏过的用户ID;

(2) adgroup_id:脱敏过的广告单元ID;

(3) time_stamp:时间戳;

(4) pid:资源位;

(5) noclk:为1代表没有点击;为0代表点击;

(6) clk:为0代表没有点击;为1代表点击;


表二广告基本信息表ad_feature

有6个字段信息:

(1) adgroup_id:脱敏过的广告ID;

(2) cate_id:脱敏过的商品类目ID;

(3) campaign_id:脱敏过的广告计划ID;

(4) customer_id:脱敏过的广告主ID;

(5) brand:脱敏过的品牌ID;

(6) price:宝贝的价格


表三用户基本信息表user_profile

有9个字段信息:

(1) userid:脱敏过的用户ID;

(2) cms_segid:微群ID;

(3) cms_group_id:cms_group_id;

(4) final_gender_code:性别1:男,2:女;

(5) age_level:年龄层次;

(6) pvalue_level:消费档次,1:低档,2:中档,3:高档;

(7) shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户

(8) occupation:是否大学生,1:是,0:否

(9) new_user_class_level:城市层级


表四用户的行为日志behavior_log

有9个字段信息:

(1) user:脱敏过的用户ID;

(2) time_stamp:时间戳;

(3) btag:行为类型, 包括以下四种:

ipv浏览

cart加入购物车

fav喜欢

buy购买

(4) cate:脱敏过的商品类目;

(5) brand:脱敏过的品牌词;


三、你想从该数据集中分析哪些业务问题?

1、哪种类型的广告主比较多

2、哪种类型的广告,用户点击量大

3、不同年龄、性别、层次的人群,点击的广告有什么区别?

4、不同人群展示的广告类型有什么区别?

5、不同人群的购物偏好有什么不同?

6、哪类商品在全年龄段中广受喜爱?

7、什么样的人群是购物主力?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342