百面机器学习|第三章 经典算法

前言

此为本人学习《百面机器学习——算法工程师带你去面试》的学习笔记

经典算法

1、支持向量机

1、在空间上线性可分的两类点,分别向SVM超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?

答:是,对于任意线性可分的两组点,他们在SVM分类超平面上的投影都是线性不可分的。

2、是否存在一组参数使SVM训练误差为0?

答:是,一个使用高斯核(k(x,z)=e^{-||x-z||^2/\gamma ^2})训练的SVM中,若训练集中不存在两个点在同一个位置,则存在一组参数{\alpha_{1} ,...,\alpha_{m} ,b}以及参数\gamma 使得该SVM的训练误差为0.

3、训练误差为0的SVM分类器一定存在吗?

答:一定存在

4、加入松弛变量的SVM的训练误差可以为0吗?

答:是,并不一定能得到训练误差为0的模型。如果使用SMO算大来训练一个参加松弛变量的SVM模型,则我们的优化目标改变了,并不再是是训练误差最小。考虑到松弛变量的SVM模型优化的目标函数所包含的两项:C\sum_{i}^m \xi _{i} \frac{1}{2}||w||^2 。当我们的参数C选取较小值时,后面的正则项将占据优化的较大比重。这样,一个该有训练误差,但是参数较小的点将成为更优的结果。当C取0时,w也取0时即可达到优化目标。

2、逻辑回归

1、逻辑回归和线性回归的异同:

区别:最本质的区别,逻辑回归处理的是分类任务,线性回归处理的是回归任务。逻辑回归中,因变量取值是一个二元分布,模型学习得出的是E[y|x;\theta ],即给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测分类问题。而现行回归中实际上求解的是y'=\theta ^T x是对我们假设的真是关系y=\theta ^{T}x+\epsilon 的一个近似,其中\epsilon 代表误差项,我们使用这个近似项来处理回归问题。

还有一个区别是,逻辑回归中的因变量是离散的,线性回归中的因变量是连续的。并且在自变量x与超参数\theta 确定的情况下,逻辑回归可以看做广义线性模型在因变量y服从二元分布时的一个特殊情况;而使用最小二乘法求解线性回归时,我们认定因变量y服从正态分布。

相同:两者都使用了极大似然估计来对训练样本进行建模。线性回归使用最小二乘法,实际上就是自变量x和超参数\theta 确定。因变量y服从正态分布的假设下,使用极大似然估计的一个化简;二逻辑回归中对似然函数L(\theta )=\prod_{i=1}^N P(y_{i} |x_{i} ;\theta)=\prod_{i=1}^N(\pi (x_{i}))^{y_{i}}(1-\pi (x_{i})))^{1-y_{i}}的学习,得到最佳参数\theta

在求解参数过程中,都可以使用梯度下降的方法

2、多项逻辑将回归:

一个样本只对应一个标签时,可以假设每个样本属于不同标签的概率服从几何分布,使用多项逻辑回归(Softmax Regression)来进行分类(存在一个Softmax)。

一个样本可能属于多个标签时,可以训练k个二分类的逻辑回归分类器第k个分类器用以区分每个样本是否可以归为第i类。

3、决策树

1、决策树常用的启发函数:

ID3:最大信息增益

C4.5:最大信息增益比

CART树:最大基尼指数(Gini)

2、三种决策树构造准则的比较:

ID3采用信息增益作为评价标准,会倾向于取值较多的特征。因为信息增益反映的是给定条件以后不确定性减少的程度。C4.5实际上是对ID3的优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合,提升决策树的泛化能力。

从样本类型的角度,ID3只能处理离散型变量,而C4.5和CART树都可以处理连续型变量。C4.5会排序找到切分点,将连续变量转换为多个取值区间的离散型变量,CART每次会对特征进行二值划分,适用于连续变量。

从应用角度,ID3和C4.5只能用于分类,CART树可以用于分类和回归

从实现细节、优化过程等角度,ID3对样本特征缺失值比较敏感,而C4.5和CART树都可以对缺失值进行不同方式的处理。

ID3和C4.5可以产生多叉分支,且每个特征在层级之间不会复用。CART树是二叉树,每个特征可以被重复利用

ID3和C4.5通过剪枝来权衡树的准确性和泛化性能,CART树枝节利用全部数据发现所有可能的树结构进行对比。

3、前剪枝:在生成决策树的过程中提前停止树的增长。核心思想是在树中节点进行扩展之前,先计算当前的划分是否能带来模型泛化性能的提升,如果不能则不再继续生成子树。

前剪枝停止决策树生长的几种方法:

(1) 当树达到一定深度时停止生长。

(2) 当到达当前节点的样本数量小于某个阈值时停止生长。

(3) 计算每次分类对测试集的准确率提升,当小于某个阈值时停止生长。

前剪枝的优缺点:

优点:简单高效,适合解决大规模问题。

缺点:

(1) 深度和阈值这些值很难准确估计,针对不同问题会有很大差别。

(2) 前剪枝存在一定局限性,有欠拟合的风险,虽然当前的划分会导致测试集准确率下降,可能在后面会有显著上升。

4、后剪枝:在已生成的过拟合决策树上进行剪枝。核心思想是让算法生成一棵完全生长的决策树,然后从底层向上计算是否剪枝。(剪枝是将子树删除,用一个叶子节点代替,节点类别按多数投票)如果剪枝之后准确率有提升,则剪枝。

后剪枝的优缺点:

优点:通常可以得到泛化能力更强的决策树。

缺点:时间开销大

常用的后剪枝方法:

(1) 错误率降低剪枝(Reduced Error Pruning,REP)

(2) 悲观剪枝(Pessimistic Error Pruning,PEP)

(3)代价复杂度剪枝(Cost Complexity Pruning,CCP)

(4)最小误差剪枝(Minimum Error Pruning,MEP)

(5)CVP(Critical Value Pruning)

(6)OOP(Optimal Pruning)

代价复杂度剪枝CCP的步骤。

(1) 从完整决策树T_{0}开始,生成一个子树序列{T_{0},T_{1},...,T_{n}},其中T_{i+1}T_{i}生成,T_{n}为根节点。(也就是说计算剪枝之后误差增加率,选最小的节点剪枝代替,一直剪枝,直到最后只剩下根节点,记录下这个过程中所有的树的样子)

(2)在子树序列中,根据真实误差选择最佳的决策树。CCP对于从子树序列中选最优树有两种方法:1.从子树序列中选择最佳决策树。由于不是在所有可能的子树中寻找,性能上会有一定不足。2.基于 k 折交叉验证,将数据集分成k份,前k-1份用于生成决策树,最后一份用于剪枝。重复进行N次,再从N个子树中选择最优子树。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试...
    蓝白绛阅读 2,712评论 0 1
  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,832评论 0 25
  • 1.前言 决策树是一种基本的分类和回归方法。决策树呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。采用...
    胜利主义章北海阅读 2,635评论 0 0
  • 自己已经读了好多遍学习力的内容,但却自己并没有掌握其中的要旨,其中的多重阅读策略,自己虽然在用,却发现自己并没真正领悟。
    老菜头_dca8阅读 241评论 0 0
  • 外面传来一阵喧嚣,室友好奇地去看发生了事情,原来大家都在外面等着看流星雨。 按耐不住好奇心的我也下了床,来到阳台,...
    Bri晨阅读 293评论 1 1