分类学习器的构建

目录

  1. 变量选择
  2. 变量筛选
  3. 模型选择
  4. 变量预处理
  5. 模型设计和训练
  6. 模型优化
  7. 模型检验

1、特征选择

在NLP模型、机器视觉模型等中,一般不存在变量选择。而在消费信用模型中,属于客户的可用特征可以非常多,有些明显没有用,有些需要重新构造/转换。

2、特征工程(变量筛选和处理)

这里主要有两个工作要做:

  • 剔除无效、冗余等变量。一个特征变量,如果它跟因变量之间没有因果关系或者贡献很少,或者说如果它跟其他确定的特征变量高度相关甚至存在共线性,或者说该变量在时间上不稳定时,我们应该考虑剔除该变量。
  • 变量预处理。根据模型的要求和泛化性能的考虑,拿到变量后一般都要再处理,如连续变量的分箱、有序因子变量d额重新切分、分类变量的编码(哑变量、onehot编码、WOE编码等)等。

这一节我们主要介绍第一种,事实上剔除变量的方法也可以用于变量的粗分类,例如拿到的年龄数据是以10岁分段的,我们可以将它粗分类为两个类别(如30岁以下、30岁以上),那至于选用哪个点就可以用一些特征选择的方法了。

2.1 单变量检验法

单变量检验法有两种目的,变量剔除和自变量的离散化处理(已经离散的也需要进行重新划分)

单变量检验法实际上是在研究一个自变量对目标变量的影响,事实上也可以看成是单个自变量的评分模型,更进一步地,可以直接将自变量的取值当做是某种信用评分的得分,此时需要假设自变量是某种有序变量,也就是仅仅根据这个有序的自变量直接对目标变量进行预测。正是基于这种视角,我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来

因为是分类系统,相关系数一般很糟糕。常用的有两个方法:卡方统计量和信息量。

设样本集为X(一共m个特征和N个样本),因变量为Y(一共K类),固定单个特征A(取值为a1、a2、····aM),设nij=特征A第i个类别中第j类的样本数,则特征A和因变量的列联表如下:

第1类 第2类 ····· 第K类 合计
a1 n11 n12 ···· n1K
a2 n21 n22 ···· n2K
··· ··· ··· ··· ···
aM nM1 nM2 ···· nMK
总体 N

*注:混淆矩阵等实际上就是预测分类变量和实际分类变量之间的列联表

卡方统计量

卡方检验常用语两个变量之间的显著性检验,较大的卡方统计量表明因变量(标签,输出)跟特征之间存在显著的差异。

假定fo、fe分别为观察频数和期望频数,则卡方统计量为:

当我们计算了所有变量的卡方统计量后,可以用p值来筛选变量,也可以用衍生的V相关系数来筛选:

其中R代表列联表的行数,C代表列联表的列数。

WOE(证据权重)和IV(信息量)

这两个指标仅限二分类任务。

考虑居住条件和好坏人数量之间的关系,下表给出了它们的列联表(观察频数表):

居住条件 / 因变量 好人数量 坏人数量
自有住房 570 30
租房 150 50
其他 180 20
总数 900 100

用概率论来考虑该问题。给定单个样本数据$x \in X$,有条件概率p(G|x)和p(B|x)表示给定特定数据下好人和坏人的概率,且满足:

在处理二分类的概率问题时,我们更喜欢考虑事件的发生比率(事件发生的概率除以事件不发生的概率):
令$f(x|G)$和$f(x|B)$为条件概率密度函数,同时运用贝叶斯法,可以推出
其中
总体发生比率(在上面的例子中p_G=0.9,p_B=0.1),它反映了还没有任何关于借款人的已知信息时,我们对该借款人是好人的可能性认知。而I(x)称为信息比率,其大于1时,表明属性x的借款人比总体中一般借款人更可能是豪恩,其自然对数ln(I(x))也是评估向量x携带信息的一种有效途径,我们将这个数值称之为x提供的证据权重(weights of evidence,WOE)为

如果想考察特征x区分好坏借款人的表现,我们可以用特征的均值之差:

然而这个差并没有考虑到某些x值的信息量远高于其他的情况,于是我们可以用权重之差来判断:
这被称为散度,也等价于相对熵(进行了对称处理)。将散度离散化便得到信息量(IV)。如果一个特征有K个类别,且用$g_k$和$b_k$表示第k类中好人和坏人的数量,用$n_G$和$n_B$表示好人和坏人的数量,则IV可以表示为:

以上面的居住条件为例,计算结果如下表:

该特征的信息量IV=0.615,一般IV值越大,该特征越要保留。

这里WOE是信息比率I(x)的对数,WOE的值越大代表对应的变量对“是好人”的贡献就越大,反之,越小就代表对应的变量对“是坏人”的贡献越大。所以WOE值可以作为居住条件的一种编码方式。

信息增益、信息增益率
  • :随机变量X的熵被定义为:
    其中p(x)=Pr(X=x)是X的密度函数。熵度量了随机变量X的不确定性程度,如8种均匀可能需要log28=3个字节来存储。
  • 联合熵条件熵
    两个随机变量的联合熵被定义为:

    条件熵被定义为:
    另外可以证明:

  • 相对熵(K-L散度):相对熵是两个随机分布之间距离的度量。在统计学中,它对应的是似然比的对数期望。相对上D(p||q)度量当真实分布为p而假定分布为q时的无效性。

    相对熵总是非负的,注意到其并不对程,也不满足三角不等式,所以严格来讲,它并不能称为“距离”,所以实际使用中,我们可以作对称化处理:
    K-L散度是一个非常不错的“距离”,在下一节我们还会继续讲这个指标,但是要注意K-L散度是无界的。

  • 信息增益(互信息):互信息是一个随机变量包含另一个随机变量信息量的度量,也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。

    注意到互信息(信息增益)关于X和Y是对称的,即H(X)-H(X|Y)=H(Y)-H(Y|X)。而且它与相对熵存在如下等价关系:
    从该等价式可以看出,当X和Y之间几乎相互独立,即相互所包含的信息很少时,联合分布p(x,y)与乘积分布p(x)p(y)之间的K-L距离相应的也很小。

  • 信息增益比

  • 基尼指数(Gini)

2.3 多变量检验法

在回归方程中,用向前或者向后的逐步回归方式

[1]. 利用LendingClub数据建模
[2]. LendingClub数据集

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容