2.2常用算法--逻辑回归(分类/解决二分类问题)

☆☆☆☆☆逻辑回归（LR）(分类/解决二分类问题)

一. sigmoid函数(逻辑回归函数)

image.png

1.t 就是线性回归 h(w) = w1x1 + w2x2+..+b

- 和线性回归之间的联系
-- 线性回归的结果带入到sigmoid函数中，把结果的取值范围映射到了[0,1]之间
- 逻辑回归的损失函不一样，对数似然损失

2.☆☆☆损失函数推导

cost = -ylog(p)-(1-y)log(1-p）

1.回归函数 h(x)

image.png

2.过程1 :求损失,将y值代入上式子,求最大损失函数

cost 为损失其中y为真实值(二分值0/1)，p 为逻辑函数预测概率

image.png

-当y=1时，我们希望p值越大越好
-当y=0时，我们希望p值越小越好
-提升原本属于1类别的概率，降低原本是0类别的概率。
逻辑回归一般使用L(\hat{y},y) = -(y\log\hat{y})-(1-y)\log(1-\hat{y})L(y^{,y)=−(ylogy})−(1−y)log(1−y^)

image.png

3. 过程二,合并

image.png

需要注意的点

不能有缺失
也要归一化/标准化
类别性变量可以考虑one-hot
数据目标特征之间要有关联皮尔逊相关系数
特征之间如果关联性比较强的，只保留一个
样本分布不均衡
过采样，欠采样
参数增加权重

二. API :LR_model

sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0)

solver可选参数:{'liblinear', 'sag', 'saga','newton-cg', 'lbfgs'}，

1.默认: 'liblinear'；用于优化问题的算法。
2.对于小数据集来说，“liblinear”是个不错的选择，而“sag”和'saga'对于大型数据集会更快。
3.对于多类问题，只有'newton-cg'， 'sag'， 'saga'和'lbfgs'可以处理多项损失;“liblinear”仅限于“one-versus-rest”分类。

penalty：正则化的种类

C：正则化力&度——C越大,惩罚越小,模型偏过拟合 C越小,惩罚越厉害,模型偏欠拟合

使用场景

1. 风控领域：LR预测会不会违约（违约的概率）
2. 用户流失预警： LR预测流失概率
3. 推荐系统：CTR预估 LR预测点击的概率

三. 评价指标 AUC/KS值 , ROC 曲线图

准确率：预测对的样本/ 样本总数

二分类问题常见评价指标混淆矩阵

正例==1, 假例==0, TP/FN..., 第一个代表预测结果的是否正确, 第二值代表预测值时(1/0, P/N)

image.png

_P/_N : 表示预测样本是正样本还是负样本,
T: 表示预测结果正确/ F: 表示预测结果错误
TP+FP+FN+FN：特征总数(样本总数)
TP+FN：实际正样本数: TP（正正得正）FN: (负负得正)
FP+TN：实际负样本数:
TP+FP：预测结果为正样本的总数
TN+FN：预测结果为负样本的总数

1. 精准率查准率: Precision: 检验预测正样本的准确率

-挑出来的西瓜中有多少比例是好瓜，查准率
预测为1中有多少是1
针对预测结果：正确预测正样本/(预测为正样本的和)

预测结果为正例样本 (1) 中真实为正例的比例 (1) TP/(TP+FP)

image.png

2. 召回率：查全率 Recall: 检验TPR

全部好瓜有多少比例被挑出来，查全率
本身是1的有多少被查出了
针对样本数据: : 预测正样本/ 预测正确的(真正例+ 真反例)

真实为正例的样本 (1) 中预测结果为正例 (1) 的比例（查得全，对正样本的区分能力）

                                             TP/(TP+FN)

3. F1-score: 精准率召回率的调和平均值

image.png

4. ROC曲线 : ROC_curve-->TPR/FPR值

1.ROC曲线的横轴就是FPRate，纵轴就是TPRate，当二者相等时，表示的意义则是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的，此时AUC为0.5
2.fpr（假正率、1-特效性）、tpr（真正率、灵敏度）、thresholds（阈值）
3.FPR假正率 = 预测错了/所有负类样本，越小越好。= FP/(FP+TN)
TPR真正率 = 预测真确了/所有正类样本，越大越好。= TP/(TP+FN)
4.API: roc_curve
y_score= LR_model.predict_proba(val_x)[:,1] 算验证集预测值 . LR_model.predict_proba(x),得到两组数据,[(0的概率), (1的概率)]
fpr_lr_train,tpr_lr_train,_=sklearn.metrics.roc_curve(y,y_pred)

5.KS: 算的是ROC曲线中,最大两点的距离

ks = abs(fpr - tpr).max()
0.4最差的 0.6 勉强可以用，0.7~0.8之间普通情况

5.1 AUC: 计算ROC曲线面积，即AUC值

一。AUC值= sklearn.metrics.roc_auc_score(y_true, y_score)

1.计算ROC曲线面积，即AUC值
2.y_true：每个样本的真实类别，必须为0(反例),1(正例)标记
3.y_score：预测得分(lr.predict_proba输出概率)，可以是正类的估计概率、置信值或者分类器方法的返回值
4.y_score= LR_model.predict_proba(val_x)[:,1] 算验证集预测值
5.lr_model.predict_proba(x),得到两组数据,[(0的概率), (1的概率)]

二。AUC的范围在[0, 1]之间，并且越接近1越好，越接近0.5属于乱猜

四。 Finally 思维导图

image.png

最后编辑于：2020.07.28 19:38:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

2.2常用算法--逻辑回归(分类/解决二分类问题)

☆☆☆☆☆逻辑回归 （LR）(分类/解决二分类问题)

一. sigmoid函数(逻辑回归函数)

1.t 就是线性回归 h(w) = w1x1 + w2x2+..+b

2.☆☆☆损失函数推导

1.回归函数 h(x) image.png

2.过程1 :求损失,将y值代入上式子,求最大损失函数

image.png

3. 过程二,合并 image.png

需要注意的点

二. API :LR_model

solver可选参数:{'liblinear', 'sag', 'saga','newton-cg', 'lbfgs'}，

penalty：正则化的种类

C：正则化力&度——C越大,惩罚越小,模型偏过拟合 C越小,惩罚越厉害,模型偏欠拟合

使用场景

三. 评价指标 AUC/KS值 , ROC 曲线图

准确率： 预测对的样本/ 样本总数

二分类问题常见评价指标 混淆矩阵

正例==1, 假例==0, TP/FN..., 第一个代表预测结果的是否正确, 第二值代表预测值时(1/0, P/N) image.png

1. 精准率 查准率: Precision: 检验预测正样本的准确率

预测结果为正例样本 (1) 中 真实为正例的比例 (1) TP/(TP+FP) image.png

2. 召回率：查全率 Recall: 检验TPR

真实为正例的样本 (1) 中预测结果为正例 (1) 的比例（查得全，对正样本的区分能力）

3. F1-score: 精准率召回率的调和平均值 image.png

4. ROC曲线 : ROC_curve-->TPR/FPR值

5.KS: 算的是ROC曲线中,最大两点的距离

5.1 AUC: 计算ROC曲线面积，即AUC值

一。AUC值= sklearn.metrics.roc_auc_score(y_true, y_score)

二。AUC的范围在[0, 1]之间，并且越接近1越好，越接近0.5属于乱猜

四。 Finally 思维导图

推荐阅读更多精彩内容

☆☆☆☆☆逻辑回归（LR）(分类/解决二分类问题)

1.回归函数 h(x)

image.png

3. 过程二,合并

image.png

准确率：预测对的样本/ 样本总数

二分类问题常见评价指标混淆矩阵

正例==1, 假例==0, TP/FN..., 第一个代表预测结果的是否正确, 第二值代表预测值时(1/0, P/N)

image.png

1. 精准率查准率: Precision: 检验预测正样本的准确率

预测结果为正例样本 (1) 中真实为正例的比例 (1) TP/(TP+FP)

image.png

3. F1-score: 精准率召回率的调和平均值

image.png