机器学习基础概念

什么是机器学习

机器学习出现之前：

编写算法规则，输入计算机，机器执行后输出结果。

举个栗子：垃圾邮件分辨

编写规则定义什么是垃圾邮件，新邮件根据规则去判定是否为垃圾邮件。

规则繁多，很难定义非常精准的规则。
规则可能在不断变化。

再举个栗子：分辨猫狗

人工定义无数的猫、狗特征，比如耳朵长度、斑纹、眼睛大小。。。

猫狗种类繁多，体态、颜色、斑纹、五官各异。
几乎无法用传统思路解决。

更多无数用传统方法解决的问题：人脸识别、语音识别、文字数字识别等。。。

人类如何学习？

随着年龄的增长，见闻的增加，不断吸取各类知识，对事物的判断力不断增加。

机器学习出现后

编写机器学习算法，输入计算机大量数据并训练出模型，机器根据模型去判断新的数据。

粗略的总结：

机器学习的方法性质和人类学习是很类似的。
人类的大脑很棒，可能只要见过几只猫或几只狗就能建立对猫狗的判断。
但人类凭借视觉，能够直接分辨出猫狗，但无法给出详细准确的解释。
机器很“笨”，需要喂给它成千上万张猫狗图片以及答案才能建立模型。
但机器很快，能够处理的数据量远远超过人类的能力边界，精确到猫狗图像的每个像素点从而做出判断。

机器学习的数据

一个非常著名的数据集：鸢尾花（Iris）

数据案例

共有150条鸢尾花数据
鸢尾花共有3种类型，每种类型50有条数据
每条数据均有4个维度属性：花瓣长度、花瓣宽度、花萼长度、花萼宽度

数据信息

数据的整体叫做数据集（data set）
每一行数据称为一个样本（sample）
除最后一列外，每一列均表达样本的一个特征（feature）
最后一列称为标记（label）

数学相关：

上例样本特征集合可以成为一个矩阵（matrix）
上例样本最后一列可以称为一个向量（vector）
通常用大写字母表示矩阵，小写字母表示向量
上例样本的一行特征可以表示为特征向量
通常数学中的向量都为列向量，可以转置后得到行向量

数据的可视化

将两类鸢尾花的前两个特征（萼片长度、萼片宽度）绘制在一个平面图内，可以得到以下图像：

两个特征可以在二维空间中表示，三个特征可以在三维空间中表示……1000个特征可以在1000维的空间表示
每个样本的本质是在特征所组成的空间中的一个点，这个空间叫做特征空间（feature space）

分类任务的本质就是在特征空间切分

特征也可以很抽象

黑白图像每个特征有0-255的灰度值
彩色图像则还要区分RGB三色的各灰度值

image.png

机器学习的主要任务

机器学习两大类任务：分类、回归

回归

回归最大的特点：结果标签列不是类别，而是连续的数字

房价预测
股票价格预测
学生成绩预测

回归和分类的联系：

有的算法只支持分类任务，有的算法只支持回归任务，也有算法同时支持分类和回顾任务
一些情况下回归任务可以简化成分类任务，比如：预测学生的成绩，但最终想得到的结果不是具体成绩，而是优、良、差等数字的集合，从而可以改用分类算法来解决

数学相关：

模型可以理解为一个函数f(x)，输入的自变量x就是一个样本资料，输出则为函数的因变量y

机器学习方法分类

机器学习方法四大类：监督学习、非监督学习、半监督学习、增强学习

监督学习

给机器的训练数据拥有“标记”或“答案”，分类和回归任务都属于监督学习

分类：猫狗图片识别，图像已经拥有了标定信息是猫还是狗
回归：房价预测，市场已经积累了房屋的基本信息和最终的成交金额

无监督学习

给机器的训练数据没有任何“标记”或“答案”，聚类任务属于非监督学习

聚类：对没有标记的数据进行分类，由机器自行判断数据的相似度并进行划分
特征提取：如信用卡的评级和人的胖瘦无关，机器将自动将胖瘦从特征中去除，从而提取其他有用的特征
特征压缩：PCA（降维），如300 * 300像素的数字图像识别，可以使用PCA压缩至30 * 30个特征（后续会有解释），同时降维也更加方便人类的可视化
异常检测：自动检测出数据中具有较大偏差的异常点，从而保证绝大多数样本的一致性

异常检测

半监督学习

只有部分数据有“标记”或“答案”

日常工作中会出现由于各种原因而产生的标记缺失
通常会先使用无监督学习手段对数据做处理，之后使用监督学习手段做模型的训练和预测，是前两者的结合

增强学习

根据周围环境的情况采取行动，根据行动的结果，学习行动方式

算法根据环境采取行动，会得到反馈，包括奖赏机制反馈和惩罚机制反馈，从而改进算法本身的行为模式，依次循环
适用于强人工智能模式的领域，如机器人（alphaGO）、无人驾驶等，发展领域越来越广，未来非常有前景
监督学习和半监督学习是基础

增强学习

机器学习的其他分类

包括批量学习（非在线学习)、在线学习、参数学习、非参数学习

批量学习

一般的机器学习大多为批量学习，即模型为一次训练，不再将产出的预测结果或者新的样本投入训练

优点：简单，学习算法本身即可，不考虑投入生产环境后如何优化
问题：如何适应新的数据变化？
解决方案：针对数据变化较慢的场景，定时重新批量学习
缺点：每次重新批量学习，运算量巨大，不能适用于环境变化非常快的情况（如股价预测）

在线学习

整体的流程与批量学习大致相同，但每次用于预测的输入样例并不浪费掉，而是结合输出的正确结果再次投入模型训练

股价预测：可能每分钟都能拿到正确的股价，不断将新的基本面信息和新的股价投入模型训练迭代
优点：及时反映新的环境变化
问题：新的数据带来不好的变化，如竞争对手大量的恶意操作从而使错误的数据进入模型训练导致准确率下降
解决方案：需要加强对数据监控，如使用非监督学习进行异常检测
其他场景：也适用于数据量巨大，完全无法批量学习的环境

参数学习

先观察数据，假设数据符合一个统计模型（可以理解为函数），从而让机器去寻找函数中的参数

特点：一旦学到了参数，就不再需要原有的数据集

非参数学习

不对模型进行统计模型过多的假设，且预测的过程中，模型训练的数据集也要参与预测

非参数学习不等于没有参数：不将训练的过程视作建模，即不视作学习模型的参数，但在学习过程中依然需要有参数参与（后续会解释）

机器学习相关的哲学思考

数据为王？

2001年微软的论文显示，在数据集的量大到足够多时，算法之间的准确率并没有很大差别，一时间甚至有“数据即算法”的言论

数据确实非常重要
很多场景下的任务数据驱动
收集更多数据
提高数据质量
提升数据的代表性
研究更重要的特征

2001年微软论文

算法为王？

以AlphaGO ZERO为代表，从零开始，无数据冷启动，某些场景下即使没有数据，强大的算法也可以生成数据

再好的数据也要靠强大的算法驱动
未来算法的突破同样至关重要

AlphaGO ZERO

如何选择机器学习算法

奥卡姆的剃刀原则：简单的就是好的
在机器学习领域，什么叫简单？
没有免费午餐定理：可以用严格的数学推导出，任意两个算法，它们的期望性能可能相同
具体到某个特定的问题，有些算法可能更好
但没有一种算法，绝对比另外一种好
脱离具体问题，谈哪个算法更好是没有意义的
在面对具体问题时，尝试使用多种算法实验对比是很重要的

部分机器学习算法

其他思考

面多不确定的世界，怎么看待使用机器学习进行预测的结果？

人脸特征与犯罪率
未来会不会有机器伦理的学科？

最后编辑于：2020.12.16 01:12:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343

机器学习基础概念

什么是机器学习

机器学习出现之前：

举个栗子：垃圾邮件分辨

再举个栗子：分辨猫狗

更多无数用传统方法解决的问题：人脸识别、语音识别、文字数字识别等。。。

人类如何学习？

机器学习出现后

粗略的总结：

机器学习的数据

一个非常著名的数据集：鸢尾花（Iris）

数据案例

数据信息

数学相关：

数据的可视化

机器学习的主要任务

机器学习两大类任务：分类、回归

分类：

回归

数学相关：

机器学习方法分类

监督学习

无监督学习

半监督学习

增强学习

机器学习的其他分类

批量学习

在线学习

参数学习

非参数学习

机器学习相关的哲学思考

数据为王？

算法为王？

如何选择机器学习算法

其他思考

推荐阅读更多精彩内容