基础回顾与总结

从2017年初到现在,涉足机器学习领域已经5个月有余,越来越觉得这是一个难度很大但又非常有意思的技术领域,我会坚持学下去。既然开始,就一定要有一个对得起自己与时间的结果。

一 有监督学习

1. 分类学习(classification)

分类问题包括二分类问题(Binary Classification,0/1)、多类分类(Multi-class Classification,在多于两个类别中选择一个)、多标签分类(Multi-label Classification,判断一个样本是否属于多个不同的类别)。

  • 对于分类问题,模型性能分析标准有accuracy,precision,recall,f1-score,support,后面四个可以通过classification_report得到。另外,还有一个分析标准是ROC/AUC
  • 针对分类问题,常见的分类算法包括:

1.1 线性分类器

线性分类器是一种假设特征与分类结果/标签存在线性关系的模型,这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。线性分类器是最常见的机器学习模型,尽管受限于数据特征与分类目标之间的线性假设,我们仍然在实践中将线性分类器的表现性能作为基准
  线性分类器包括LogisticRegression(逻辑回归)和SGDClassifier,前者是采用精确解析的方式(我理解就是批量梯度下降,将所有数据都导入迭代求解,数据量一大,计算量非常大),后者是随机梯度上升算法,精确度不足但是数据量大时更适合。

  • batch gradient descent: use all of the training instances以更新模型参数
  • stochastic gradient descent(SGD): use only a random single training instance

1.2 支持向量机(分类)

1.3 朴素贝叶斯

1.4 K近邻

K近邻算法与其他模型最大的不同在于:该模型没有参数训练过程。也就是说,我们并没有通过任何学习算法分析训练数据,而只是根据测试样本在训练数据的分布直接做出分类决策。因此,K近邻属于无参数模型中非常简单的一种。但这种决策算法,会有很高的计算复杂度和内存消耗,不适合数据规模很大的情况。

1.5 决策树

前面的线性分类器和向量机分类都要求被学习的数据特征和目标之间遵照线性假设。如果不遵循这个假设呢?可以考虑决策树(有参数模型)。

1.6 集成模型(分类)

集成分类模型使综合考量多个分类器的预测结果,从而做出决策。工业界为了追求更加强劲的预测性能,经常使用随机森林分类模型作为基线系统
  综合考量有两种方式:
  一种是利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。如随机森林分类器:在相同训练数据上同时搭建多颗决策树。
  另一种是按照一定次序搭建多个分类模型。每一个后续模型的加入能够提升集成模型总体性能,多个分类能力较弱的分类器整合到一起搭建一个更强分类能力的模型。如梯度提升决策树。

2. 回归预测(regression)

性能测评方法:不要求预测结果与真实值完全相同,希望衡量预测值与真实值之间的差距,可以通过多种测评函数进行评价,如平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),R-squared(拟合度)。其中R-squared=1表明y可以被很好的预测,无错误。

2.1 线性回归器

线性回归模型包括LinearRegression(批量梯度下降)和SGDRegressor(随机梯度下降)。
  类比分类问题,两种线性回归模型适用于不同的场景,LinearRegression适合数据规模10万以下,回归表现好。SGDRegressor适合数据规模大的情况,节省时间。
  线性回归器简单、易用,但是有特征与回归目标之间的线性假设,不一定适用各种场景,但一般适用线性回归模型作为科学实验的基线系统

2.2 支持向量机(回归)

2.3 K近邻

借助周围K个最近训练样本的目标数值,对待测样本的回归值进行决策,可以考虑一种是对K个近邻目标数值适用普通的算术平均算法;一种是考虑距离的差异进行加权平均。

2.4 回归树

2.5 集成模型(回归)

三种方法:普通随机森林的回归器版本、提升树模型的回归器版本、极端随机森林。

二 无监督学习

1. 数据聚类

最为经典的是K均值算法,该算法要求提前预设聚类的个数,也就是分成几个簇。通过更新簇类的中心,迭代多次,让所有数据点到其所属聚类中心距离的平方和趋于稳定。

1.1 K均值算法

性能测评方法如下:
(1)scikit中metrics的ARI指标
(2)轮廓系数(Silhouette Coefficient),越趋于1越好,表明簇内的节点离中心近,离其他簇远。
算法特点分析:
(1)容易收敛到局部最优解
(2)需要预先设定簇的数量

  • 第一个问题,K均值算法可能会因为初始中心的选择导致收敛到局部最优解。在簇数量<10时,可以通过多次执行算法挑选性能表现更好的初始中心点解决这个问题。簇数量>10时,基本第一次就可以得到一个比较好的最优解。
  • 第二个问题可以用“肘部”观察法先预估相对合理的类簇个数。肘部曲线Y轴是样本距离所属类簇的平均距离,X轴是簇的数量。肘部曲线下降的越快,说明改变簇数量对整体结构影响很大,算法有更大的收敛空间。当下降趋势放缓时,说明再增加K值不再有利于收敛,这个拐点对应的值就是最佳簇数量。

2. 特征降维

2.1 主成分分析(PCA)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容