数据分析,在我这里,只是一种辅助需求挖掘、业务分析的方法。
统计学上分为描述统计和推论统计。
描述统计,一句话描述数据。如平均数、中位数众数。
推论统计,通过对数据的分析,进行预测,如标准差、方差、Z分布(样本值30以上)、T分布(样本值在8-30内)、P分布(样本值小于10)等。
数据的分类:数据类别
数据分析的三观:
有目的的进行分析,根据业务场景选择合适的分析方法,而不是一味的追求高超的方法,能进行简单分析的就不需要大数据挖掘。
数据处理步骤:
获取数据、处理数据(抽样、清洗等)、数据结果(数据处理后得到的一些统计量,我们平常用到留存率、活跃度等等都是)、分析原因(分析数据变化的原因,如可能是活动带来了活跃度的提升)、预测(提供决策参考)。
数据来源:
一手数据和二手数据,分别是指直接获得的数据,如埋点数据
内部数据和外部数据,分别是指自己掌握的数据,如埋点数据;结构化的数据,如三方应用市场的下载数据,非结构化的数据,如评论数据。
1、数据库
2、国家统计网站、中国统计年鉴等公开出版物
3、数据平台:借助第三方(如友盟)和自建平台。
4、爬虫抓取
5、市场调研
数据分析的类型:
描述性分析
常用方式:对比分析、平均分析、交叉分析等
诊断分析
常用方式:如AARRR模型,PEST模型、5W2H、逻辑树、用户行为理论等。
预测分析
常用方式:运用机器学习等方法建立模型,预测数据。
分组分析、结构分析、漏斗图、因素分析、矩阵关联、逻辑回归、主成成分分析、因子分析等
数据分析的方法论:
描述性数据分析---一个指标(一句话)描述数据。
独立访客数(UV)、访问量(pv)、总访问次数(VV=ΣUV*PV)、环比增长多少、用户平均付费是多少,中位数是多少,众位数是多少,四分位数是多少。
描述数据的集中趋势方差、标准差。用一个指标,一句话概括数据特点。描述数据之间的简单关系可以用相关性分析,如转化率和用户停留时间的正相关,留存率和用户停留时间的正相关等。
数理统计分析
1、方差分析
作用是研究因素对于数值型变量的影响。例如想要知道某次改版对于转化率是否有显著影响,可能从宏观上看增长的数值不大,看不大出来影响有多大,这时候就可以用方差分析做对于改版这个因素的单因素方差分析。
2、回归分析
回归分析比较好理解,简单的说就是寻找到一个函数来拟合自变量和因变量的关系。例如想要做一次活动,假设优惠的价格x,销售额为y。这两者之间可能存在y=x+1(纯举例)这样的函数关系式。回归分析就是要找出这样的函数关系,来指导活动的运营,提升ROI。
3、因子分析
因子分析即从大量的变量中寻找共性因子的统计方法,因子表现为一种表征,通常是多个变量的集合。因子分析可以简化数据,所以是一种降维的方式。常用的因子分析方法有重心法、最小平方法、最大似然法等。
数据挖掘分析(预测)
1、聚类分析(与强化学习不同)
聚类分析是由机器无监督学习将样本数据进行分类,观察特性,用来分析数据源,发现潜在的共性。聚合的目标不是让效用函数最大化,而是通过让机器无监督学习 大量样本数据,找到训练数据中的相似点。
聚类分析方式
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
应用:
聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
2、分类:广泛用于文章分类、情感分析
决策树
人工神经网络
贝叶斯分类器
支持向量机
随机森林
3、关联规则
4、回归分析
多元性回归:典型的回归问题是运费计算的问题, 快递运费受地区、重量、物品类型、运送方式等多种因素的影响,这时候可以使用多元线性回归来分析他们之间的关系。
逻辑斯蒂回归:
分析工具:
EXCEL
SPSS
P