什么是机器学习

本文一共3015字，专业人士建议阅读5-10分钟，非专业认识建议阅读10-20分钟

0.序言:

AlphaGo退役了，它赢了柯洁，也战胜了围棋五虎上将，标志着人工智能算法达到了新的高度，人工智能、深度学习、机器学习等话题也上了大家的餐桌，成了茶余饭后的谈资。本文将紧接上一讲《比你更了解你，浅谈用户画像》，我们来聊聊机器学习这个话题，本讲以入门介绍为主，技术介绍在后面的几讲展开。

1.什么是机器学习:

1.1学习的定义

近代学习是心理学的一个术语。它有广义和狭义之分。广义的学习是指人和动物在生活过程中获得个体经验的过程，是动物和人类生活中的普遍现象。如动物园里的象学会吹口琴、海狮和鲸鱼学会顶球、熊学会合掌拜谢等。狭义的学习指的是学生在学校里的学习。

1.2维基百科对于机器学习的定义

机器学习有下面几种定义：

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

1.3机器学习的三要素

数据、算法、模型

机器学习研究的是从数据中通过选取合适的算法，自动的归纳逻辑或规则，并根据这个归纳的结果(模型)与新数据来进行预测。

1.4机器学习与人类学习过程

1.5举个栗子

其实很大程度上来说机器学习与人的学习有很多共通之处，那我们先举个例子来看看人是怎么学习的，来类比机器学习。

假设有一对情侣，你是主人公(女友)，2个月前，朋友给你介绍了一个男友，他是工作狂。为了互相了解，你们每周末都会一起约会吃饭；已经约会有8周了，每周吃饭男友都会比约定时间晚到10分钟-30分钟，所以你每次约会也会比约定时间晚10-30分钟，并且你总结了一个规律(如果约会前打电话他说在公司，那么基本都是晚到30分钟左右，如果他说在家里，那么基本会晚到10分钟)，不过男友后来迟到的时间从10、30分钟变成了15、45分钟，你也自己调整了约定时间后到达的时间。

类比: 机器学习方法是计算机利用已有的数据(8次约会的经验)，得出了某种模型(迟到的规律)，并利用此模型预测未来(是否迟到)的一种方法。

1.6总结

人的学习有两个基本方法，一个是演绎法，一个是归纳法，这两种方法分别对应人工智能中的两种系统：专家系统和机器学习系统。所谓演绎法，是从已知的规则和事实出发，推导新的规则、新的事实，这对应于专家系统。专家系统也是早期的人工智能系统，它也称为规则系统，找一组某个领域的专家，如医学领域的专家，他们会将自己的知识或经验总结成某一条条规则、事实，例如某个人体温超过37度、流鼻涕、流眼泪，那么他就是感冒，这是一条规则。当这些专家将自己的知识、经验输入到系统中，这个系统便开始运行，每遇到一些新情况，会将之变为一条条事实。当将事实输入到专家系统时，专家会根据规则或事实进行推导、梳理，并得到最终结论，这便是专家系统。而归纳法是从现有样本数据中不断地观察、归纳、总结出规律和事实，对应机器学习系统或统计学习系统，侧重于统计学习，从大量的样本中统计、挖掘、发现潜在的规律和事实。

1.7现在常说的机器学习、深度学习、人工智能的关系

人工智能的范围可以说很大、很泛，从表面上可以理解为机器的智能化，让机器像人一样能解决思考解决问题。其实人工智能核心技术包括很多的方面：推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。可以说机器学习和深度学习都是人工智能这个大主题下的一部分吧，深度学习又可以归为机器学习的一部分。简而言之，机器学习和深度学习是人工智能的两个关键的技能，看人工智能的发展历史，人工智能三大研究内容：计算机模仿人类的思考，对环境的感知和动作的实现是人工智能的三大研究内容。

即:人工智能>机器学习>深度学习

2.机器学习的适用场景

适用: 明天下不下雨，所有这些可以基于采样数据来识别和解决的问题，都可以通过机器学习来处理

无法适用: 哪个彩票号码能中五百万，这些无规律的随机事件

2.机器学习过程中的几个注意点

2.1:从感知到认知

感知的一个重要体现就是数据的获取与收集(可类比人对信息的获取，如眼睛)，认知强调理解

2.2:从学习到决策

学习: 对已有数据应用相关算法进行规则/模型的计算归纳；决策：遇到新的问题时，使用学到的知识进行学习

2.3:算法和数据哪个更重要

数据秒杀一切算法，但真正推动社会的进步的是算法，而不是数据。数据就好像是工业革命时期的煤炭，非常重要，蒸汽机就像是算法，最后大家记住的是瓦特发明了蒸汽机，而不是英国的煤矿。

3.机器学习常见的概念:

2.1监督学习:

监督学习的数据比较特殊，举个栗子，比如你在中学学习英语，在老师的帮助下练习英语发音，数据是你的发音和这个发音的对错/准确程度(对错/准确程度是老师告诉你的)，然后算法就是你去尝试去模拟数据(发音)的规律，不断根据英语单词的拼写规律来学习发音，最终你学习到了基于拼写及句子的上下文调整发音。

2.2无监督学习:

无监督学习的数据中没有人告诉你对错信息，举个栗子，今天老师给你了一个碗，里面有黑米有红米，让你对这个碗里的米分个类，你可能根据颜色分类，也可能根据大小、重要分类，都没有问题，因为老师没说按什么分，对不对这个问题。

2.3降维:

降维是从更基本的维度来看问题，举个栗子，这双鞋，对其降维可以是nike这个运动品牌，也可以是运动鞋这个类目

2.4泛化:

泛华就是你学到的规则/模型的普适程度。

举个栗子吧，今天老师让你看了20个西瓜，并告诉你熟不熟，然后给你一个西瓜，问你只看外观，这个西瓜熟不熟，你可能根据以下来判断:

可能你是这么做的：看表皮，你发现20个瓜里面，瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的瓜都是熟的，但是不满足任何一个条件的都是不熟的。

所以你学到的模型如下:如果瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的，就说明是熟瓜；其它的是不熟的瓜。

但是其实有时候，纹路不明显，但其他条件满足的时候也会有一部分是熟的瓜。所以你学到的模型具有一定泛化性能，但不具有很高的泛化性能。

4.机器学习最难的是什么:

如果你思考一遍上述流程，你可能发现一切都很容易，从数据清洗，特征提取，到模型选择，事实上这你就错了。因为机器学习最难的一部，这里根本就没提到，那就是把现实生产生活中的问题，提炼成一个机器学习问题。这需要的是你对问题本身的深刻洞察。有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定，那就是你如何从一个全新的领域，去提取机器学习可以有助解决的最重要的问题。再有，无论机器的预测多准确，它的结果如果不是在解答人的需求，也是一个没用的或至少不令人喜欢的东西。比如我发明一个算法能够特别准的预测老人的寿命，或者根据女生现在的长相推测她80岁的长相，即使算法十分牛掰，这样的产品估计也不是客户喜闻乐见的。

6.机器学习的应用举例

无疑，在2010年以前，机器学习的应用在某些特定领域发挥了巨大的作用，如车牌识别，网络攻击防范，手写字符识别等等。但是，从2010年以后，随着大数据概念的兴起，机器学习大量的应用都与大数据高度耦合，几乎可以认为大数据是机器学习应用的最佳场景。

譬如，但凡你能找到的介绍大数据魔力的文章，都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。

图 Google成功预测H1N1

百度预测2014年世界杯，从淘汰赛到决赛全部预测正确。

以上论述的只是从定义出发，配合栗子进行了相关概念的解释，详细的算法我们期待后面的几讲。

还有关于推荐系统和用户画像的介绍可以移步以下2个专栏: 1.什么是推荐系统(个性化内容分发)？ - 知乎专栏2.比你更了解你，浅谈用户画像 - 知乎专栏

其中机器学习算法在推荐系统方面的应用，可以移步我的知乎live -《推荐算法那点事》

live地址:知乎 Live - 全新的实时问答

最后编辑于：2017.12.07 23:25:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

什么是机器学习

推荐阅读更多精彩内容