目录
- 变量选择
- 变量筛选
- 模型选择
- 变量预处理
- 模型设计和训练
- 模型优化
- 模型检验
1、特征选择
在NLP模型、机器视觉模型等中,一般不存在变量选择。而在消费信用模型中,属于客户的可用特征可以非常多,有些明显没有用,有些需要重新构造/转换。
2、特征工程(变量筛选和处理)
这里主要有两个工作要做:
-
剔除无效、冗余等变量。一个特征变量,如果它跟因变量之间没有因果关系或者贡献很少,或者说如果它跟其他确定的特征变量高度相关甚至存在
共线性
,或者说该变量在时间上不稳定时,我们应该考虑剔除该变量。 - 变量预处理。根据模型的要求和泛化性能的考虑,拿到变量后一般都要再处理,如连续变量的分箱、有序因子变量d额重新切分、分类变量的编码(哑变量、onehot编码、WOE编码等)等。
这一节我们主要介绍第一种,事实上剔除变量的方法也可以用于变量的粗分类,例如拿到的年龄数据是以10岁分段的,我们可以将它粗分类为两个类别(如30岁以下、30岁以上),那至于选用哪个点就可以用一些特征选择的方法了。
2.1 单变量检验法
单变量检验法有两种目的,变量剔除和自变量的离散化处理(已经离散的也需要进行重新划分)
单变量检验法实际上是在研究一个自变量对目标变量的影响,事实上也可以看成是单个自变量的评分模型,更进一步地,可以直接将自变量的取值当做是某种信用评分的得分,此时需要假设自变量是某种有序变量,也就是仅仅根据这个有序的自变量直接对目标变量进行预测。正是基于这种视角,我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来
因为是分类系统,相关系数一般很糟糕。常用的有两个方法:卡方统计量和信息量。
设样本集为X(一共m个特征和N个样本),因变量为Y(一共K类),固定单个特征A(取值为a1、a2、····aM),设nij=特征A第i个类别中第j类的样本数,则特征A和因变量的列联表如下:
第1类 | 第2类 | ····· | 第K类 | 合计 | |
---|---|---|---|---|---|
a1 | n11 | n12 | ···· | n1K | |
a2 | n21 | n22 | ···· | n2K | |
··· | ··· | ··· | ··· | ··· | |
aM | nM1 | nM2 | ···· | nMK | |
总体 | N |
*注:混淆矩阵等实际上就是预测分类变量和实际分类变量之间的列联表
卡方统计量
卡方检验常用语两个变量之间的显著性检验,较大的卡方统计量表明因变量(标签,输出)跟特征之间存在显著的差异。
假定fo、fe分别为观察频数和期望频数,则卡方统计量为:
其中R代表列联表的行数,C代表列联表的列数。
WOE(证据权重)和IV(信息量)
这两个指标仅限二分类任务。
考虑居住条件和好坏人数量之间的关系,下表给出了它们的列联表(观察频数表):
居住条件 / 因变量 | 好人数量 | 坏人数量 |
---|---|---|
自有住房 | 570 | 30 |
租房 | 150 | 50 |
其他 | 180 | 20 |
总数 | 900 | 100 |
用概率论来考虑该问题。给定单个样本数据$x \in X$,有条件概率p(G|x)和p(B|x)表示给定特定数据下好人和坏人的概率,且满足:
如果想考察特征x区分好坏借款人的表现,我们可以用特征的均值之差:
该特征的信息量IV=0.615,一般IV值越大,该特征越要保留。
这里WOE是信息比率I(x)的对数,WOE的值越大代表对应的变量对“是好人”的贡献就越大,反之,越小就代表对应的变量对“是坏人”的贡献越大。所以WOE值可以作为居住条件的一种编码方式。
信息增益、信息增益率
-
熵:随机变量X的熵被定义为:
-
联合熵 和 条件熵:
两个随机变量的联合熵被定义为: -
相对熵(K-L散度):相对熵是两个随机分布之间距离的度量。在统计学中,它对应的是似然比的对数期望。相对上D(p||q)度量当真实分布为p而假定分布为q时的无效性。
-
信息增益(互信息):互信息是一个随机变量包含另一个随机变量信息量的度量,也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。
-
信息增益比:
- 基尼指数(Gini)
2.3 多变量检验法
在回归方程中,用向前或者向后的逐步回归方式
[1]. 利用LendingClub数据建模
[2]. LendingClub数据集