0.
一、变量X的重要性划分
二、选择X的步骤
1、寻找非常重要的变量。从业务着手,一定要熟悉业务,从运营报告学习活动、和业务人员沟通弄清楚业务、从业务准则判断重要变量
2、寻找非常不重要的变量。分析每个X对y进行回归情况,通过相关分析方法获得,大概筛选30%左右的变量
3、判断剩余变量属于另外两种重要类型的哪种。从共线性判断,检测出变量间高相关性,直接看r系数即可,这部分变量属于比较重要的变量,通过合并变量的方式解决共线性
3.1 处理变量间共线的方法
3.1.1 第一种方法是从业务方面着手。
①、情形1:类似客户月末余额有3月的、6月、9月的、12月的等性质相同的,用删除法,删除首尾任意一个
②、情形2:类似商品价格与优惠券,用减法整合方式,即新增一个变量等于商品价格-优惠券
③、情形3:类似代金券1,代金券2,代金券3,...用求和整合方式,即把这些变量相加合并为一个新变量
④、情形4:类似用户信用额与贷款额,用相除整合方式,即信用额除贷款额组成一个新变量
总之,若X1与X2单位不统一,用乘除法整合成新变量,一般用除多些;若X1与X2单位统一,用加减法整合成新变量,一般用减多些
3.1.2 第二种方法是从统计方法着手,使用曲线估算
点击回归→点击曲线估算(筛选方法是首先观测R方最好的,若R方差别不大情况,选择参数最少的)
4、寻找出比较不重要的变量。用剩余变量,通过分组方式,对每组每个X与Y建立回归,并筛选出50%比较不重要的变量。注:SPSS中只有二元回归有高效算法。
SPSS操作方法是:
4.1 方法选择‘向后:LR'
4.2 选项中,在最后一个步骤中打勾;针对复杂分析或大型数据集节省内存(D)打勾
4.3 除去(V):默认值为0.1;这里含义是数字越大,删除数会越少;数字越小,删除数会越多
5、从剩余变量中找出有用的变量。用主成分分析方法,一般地,压缩出2各左右的变量。主要是处理既非重要又非不重要的变量
注:SPSS中,需要用到定义变量集和使用变量集功能。实用程序→定义变量集(把需要分析的变量打包)→使用变量集
5.1 点击分析→降维→因子
5.2 主成分分析又叫聚回归,不用考虑误差,会损失其他信息,有n各变量会有n各主成分
5.3 公式:Z1=β1X1+β2X2,Z2=λ1X1+λ2X2;Z=R方/(1-R方);总方差解释中特征值就是Z,=n(n是变量数)
5.4 可以提取的变量依据,满足Zi>1外需要满足以下任意一条:
①、方差百分比之和 Z1+Z2 ≥ 70%
②、Z1的方差百分比 > 50%
③、Z1/Z3 > 3
5.5 公因子方差中提取值> 0.7 是可以用主成分分析来解决;变量数至少6个才有必要用主成分分析方法,少于6个的直接根据业务和统计方法判断
三、市场细分算法
1、分成客户画像行为分析(确定X,通过运营报告判断)和客户价值模型(确定Y,由业务专家决定)
2、客户画像行为分析步骤
2.1 判断X的个数
2.2 分组(对行数据分组):重要算法由系统聚类、K均值聚类、二阶聚类(也叫二步聚类)、神经网络聚类(神经网络中最牛的那个) 。前两个python和SAS擅长,第三个SPSS擅长,第四个必须掌握未来方向
SPSS中,点击分析→点击分类→点击二阶聚类
2.2.1 二阶聚类分析界面解读:
①、离散数据在大数据中视同连续数据,小数据中视同分类数据
②、距离测量算法有欧氏距离(大、小数据均可用,结果可信度低)、城市距离(只有大数据用)、马氏距离(是在欧氏基础上加入相关性,只用于小数据)和对数似然四种
2.2.2 二阶聚类分析图形解读:图形显示区分度不大的可以删除变量
2.3 制作标签并贴标签
由统计软件分析出哪些组该贴什么类型的标签,然后让技术人员写入数据库,供有关部门作运营和决策依据。
非常棒的标签,满足以下条件:
①、通俗 如:剁手党、抓机党
②、尽量不要出现数字
③、要隐含统计含义和业务含义 如:黑名单
④、要隐含故事 如加入最近公司发生的事情、领导讲过的话或习大大的话,《千面英雄》可以提升讲故事能力
2.4 评估,从统计标准(作为前提依据,仅供参考)和业务标准两个方面评估
2.5 应用
3、客户价值模型步骤(3-6个指标足以)
3.1 从三个角度分析:
电商 M:钱(第一位) R:最后一笔订单距离现在的时间差(时间差的单位由商品交易周期决定) F:购买商品的总数
银行 信用:第一位 M:钱 R:最后一笔订单距离现在的时间差
3.2 步骤:
①、由业务专家确定y
②、作y还是作估计值y分析,即判断y是否需要通过建模获得
③、分箱,即列分组,对y分组,使用rank方法
部门数据需要通过个案排秩(点击转换→个案排秩)来处理重复数据排序问题(小数据选平均值,大数据选低)
④、判断细分市场的作用
价值细分分析:与行分组类似
价值评分分析:贴标签
3.1 回头客分析和转化率分析:
按图解析,回头客分析依据:若第1笔订单与第2笔订单间的空白距离很大;转化率分析依据:若第1笔订单与第2笔订单间的空白距离很小,而第2笔订单与第3笔订单间的空白距离很大;