一、什么是描述统计学
官方定义:描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。
通过四步法,收集获取数据、筛选处理数据、可视化展示数据、分析解释数据,找出数据中的规律,描述数据特征。
常用的几种指标:
1)平均值(算术平均值):
缺点:对异常数字不敏感;当数据中有异常数值时,不能用平均数
2)中位数:
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
3)四分位数:
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。
下界:数据集最小值
下四分位数Q1:将中位数到下界之间的数据一分为二
中位数Q2:中间的数字
上四分位数Q3:将中位数到上界之间的数据一分为二
上界:数据集最大值
四分位数计算方法:
第一步:计算中位数
如何计算中位数:
第二步:计算上下四分位数
四分位数实际可以应用在哪些场景:
1、比较数据
2、识别可能的异常值
4)标准差:
标标准差(Standard Deviation) ,是离均差平方的算术平均数的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。[4]
标准差能表示数据整体的波动。
标准差的计算公式:
数据集总体标准差:数据集除以N
样本标准差估计总体标准差时:数据集除以N-1
标准差的单位与计算数据的单位相同
标准差的缺点:如果两个数据差别比较大,那么就无法比较。用标准差除以数据集的平均值,就可以消除数据大小的差异。
(比如店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。)
标准差除以平均值得到的值叫作变异系数。所以,我们通常用变异系数来比较不同数据集的波动大小。
5)标准分:
标准分,是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。
用平均值与标准差计算,标准分=(数值-平均值)/标准差
表示相对排名:某个数值距离平均值距离多少个标准差
标准分为零,则该数值等于平均值
大于零则该数值大于平均值
小于零则该数值小于平均值
二、熟悉数据集:
选择的数据集:淘宝展示广告点击率预估数据集
共有4个表,分别是
raw_sample:原始的样本骨架数据集
ad_feature:广告的基本信息数据集
user_profile:用户的基本信息数据集
raw_behavior_log:用户的行为日志数据集
数据集来源:
表一原始样本骨架raw_sample(114万用户8天内的广告展示/点击日志(2600万条记录))
有6个字段信息:
(1) user_id:脱敏过的用户ID;
(2) adgroup_id:脱敏过的广告单元ID;
(3) time_stamp:时间戳;
(4) pid:资源位;
(5) noclk:为1代表没有点击;为0代表点击;
(6) clk:为0代表没有点击;为1代表点击;
表二广告基本信息表ad_feature
有6个字段信息:
(1) adgroup_id:脱敏过的广告ID;
(2) cate_id:脱敏过的商品类目ID;
(3) campaign_id:脱敏过的广告计划ID;
(4) customer_id:脱敏过的广告主ID;
(5) brand:脱敏过的品牌ID;
(6) price:宝贝的价格
表三用户基本信息表user_profile
有9个字段信息:
(1) userid:脱敏过的用户ID;
(2) cms_segid:微群ID;
(3) cms_group_id:cms_group_id;
(4) final_gender_code:性别1:男,2:女;
(5) age_level:年龄层次;
(6) pvalue_level:消费档次,1:低档,2:中档,3:高档;
(7) shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户
(8) occupation:是否大学生,1:是,0:否
(9) new_user_class_level:城市层级
表四用户的行为日志behavior_log
有9个字段信息:
(1) user:脱敏过的用户ID;
(2) time_stamp:时间戳;
(3) btag:行为类型, 包括以下四种:
ipv浏览
cart加入购物车
fav喜欢
buy购买
(4) cate:脱敏过的商品类目;
(5) brand:脱敏过的品牌词;
三、你想从该数据集中分析哪些业务问题?
1、哪种类型的广告主比较多
2、哪种类型的广告,用户点击量大
3、不同年龄、性别、层次的人群,点击的广告有什么区别?
4、不同人群展示的广告类型有什么区别?
5、不同人群的购物偏好有什么不同?
6、哪类商品在全年龄段中广受喜爱?
7、什么样的人群是购物主力?