西瓜书笔记01:logistic回归、决策树

logistic回归

@[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数]

线性模型可以用来回归学习,若要做分类就要找一个单调可微函数将分类标记y与线性回归预测值联系起来。

如何求w和b?

  • 二分类任务中,sigmoid函数即可将预测值z转换为0/1值。其中,sigmoid function:y=\frac{1}{1+e^{-z}}。将线性模型代入,即为y=\frac{1}{1+e^{-(w^{T}x+b)}}

  • 先算\frac{y}{1-y}再得ln(\frac{y}{1-y})=w^{T}x+b。令y为后验概率估计p(y=1|x),则ln(\frac{p(y=1|x)}{p(y=0|x)})=w^{T}x+b。赋值法可得,
    p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}
    p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}

  • 极大似然估计w,b,最大化
    l(w,b)=\sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b),
    再根据牛顿法解出最优解。

牛顿法利用泰勒级数公式,求经过(x0,f(x0))点斜率为f^{'}(x_{0})的直线与x轴交点。即f(x)=f(x_{0})+f^{'}(x_{0})\Delta x+...=0x_{n+1}-x_{n}=-\frac{f(x_{n})}{f^{'}(x_{n})}。计算hessian矩阵开销大,所以有了拟牛顿法。

优缺点

优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。

sklearn实现

# logistic分类
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split,cross_val_score
#from sklearn.metrics import roc_curve #二元分类
#import matplotlib.pyplot as plt

# txt也可以用read_csv读成dataframe,.loc取出需要的列 行数表示到某一行
iris = pd.read_csv('E:\\study\\data\\iris.txt',sep=',',skiprows=[1])
X = iris.loc[:,['sepal length','sepal width']]
y = iris.loc[:,['class']]

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)
logreg = LogisticRegression(C=1e5)
logreg.fit(X_train,y_train)
#y_pred = logreg.predict(X_test)
scores = cross_val_score(logreg,X_train,y_train,cv=5)
#scooing='recall' 召回率
print '准确率:%s' % np.mean(scores) # 0.78

二元分类模型评估

图片1.png

精确率|查准率 为预测为正例的里面真正例的比例,
P=\frac{TP}{TP+FP}。

召回率|查全率为真实为正例的里面真正例的比例,
R=\frac{TP}{TP+FN}。

ROC曲线 ROC的纵轴为真正例率,横轴为假正例率,分别为:
TPR=\frac{TP}{TP+FN},

FPR=\frac{TP}{TP+FN},

Tips

  • logistic回归广泛应用于流行病学,如判断哪些因素是致病的关键因素,判断得某些病的概率等。
  • 一般来说,拓展到多分类问题,OneVOne比OneVRest开销更小。
  • 类别不平衡学习的基本策略——“再缩放”,常用SMOTE算法在少的类别中过采样。

决策树

@[信息熵]

划分属性

ID3决策树划分属性的准则为信息增益。
C4.5决策树的准则为增益率。
CART决策树使用基尼系数来选择划分属性,使划分后基尼指数最小。

属性值缺失怎么办?

数据集D关于属性a的信息增益公式可推广为
Gain(D,a)=\rho *Gain(\widetilde{D},a) =\rho *(Ent(\widetilde{D})-\sum_{v=1}^{V}Ent(\widetilde{D}^{v}))
其中,\widetilde{D}表示D中属性a上没有缺失值的样本子集,\rho为无缺失值样本所占的比例,a有v个取值。

优缺点

优点:易于理解和解释,数据准备简单。
缺点:对各类别样本数量不一致的数据,信息增益结果偏向于更多数值的特征。结果不稳定,可以使用集成决策树解决。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,176评论 5 469
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,190评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,232评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,953评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,879评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,177评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,626评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,295评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,436评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,365评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,414评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,096评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,685评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,771评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,987评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,438评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,032评论 2 341

推荐阅读更多精彩内容