什么是机器学习

本文一共3015字,专业人士建议阅读5-10分钟,非专业认识建议阅读10-20分钟

0.序言:

AlphaGo退役了,它赢了柯洁,也战胜了围棋五虎上将,标志着人工智能算法达到了新的高度,人工智能、深度学习、机器学习等话题也上了大家的餐桌,成了茶余饭后的谈资。本文将紧接上一讲《比你更了解你,浅谈用户画像》,我们来聊聊机器学习这个话题,本讲以入门介绍为主,技术介绍在后面的几讲展开。

1.什么是机器学习:

1.1学习的定义

近代学习是心理学的一个术语。它有广义和狭义之分。广义的学习是指人和动物在生活过程中获得个体经验的过程,是动物和人类生活中的普遍现象。如动物园里的象学会吹口琴、海狮和鲸鱼学会顶球、熊学会合掌拜谢等。狭义的学习指的是学生在学校里的学习。

1.2维基百科对于机器学习的定义

机器学习有下面几种定义:

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

1.3机器学习的三要素

数据、算法、模型

机器学习研究的是从数据中通过选取合适的算法,自动的归纳逻辑或规则,并根据这个归纳的结果(模型)与新数据来进行预测。

1.4机器学习与人类学习过程

1.5举个栗子

其实很大程度上来说机器学习与人的学习有很多共通之处,那我们先举个例子来看看人是怎么学习的,来类比机器学习。

假设有一对情侣,你是主人公(女友),2个月前,朋友给你介绍了一个男友,他是工作狂。为了互相了解,你们每周末都会一起约会吃饭;已经约会有8周了,每周吃饭男友都会比约定时间晚到10分钟-30分钟,所以你每次约会也会比约定时间晚10-30分钟,并且你总结了一个规律(如果约会前打电话他说在公司,那么基本都是晚到30分钟左右,如果他说在家里,那么基本会晚到10分钟),不过男友后来迟到的时间从10、30分钟变成了15、45分钟,你也自己调整了约定时间后到达的时间。

类比: 机器学习方法是计算机利用已有的数据(8次约会的经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。

1.6总结

人的学习有两个基本方法,一个是演绎法,一个是归纳法,这两种方法分别对应人工智能中的两种系统:专家系统和机器学习系统。所谓演绎法,是从已知的规则和事实出发,推导新的规则、新的事实,这对应于专家系统。专家系统也是早期的人工智能系统,它也称为规则系统,找一组某个领域的专家,如医学领域的专家,他们会将自己的知识或经验总结成某一条条规则、事实,例如某个人体温超过37度、流鼻涕、流眼泪,那么他就是感冒,这是一条规则。当这些专家将自己的知识、经验输入到系统中,这个系统便开始运行,每遇到一些新情况,会将之变为一条条事实。当将事实输入到专家系统时,专家会根据规则或事实进行推导、梳理,并得到最终结论,这便是专家系统。而归纳法是从现有样本数据中不断地观察、归纳、总结出规律和事实,对应机器学习系统或统计学习系统,侧重于统计学习,从大量的样本中统计、挖掘、发现潜在的规律和事实。

1.7现在常说的机器学习、深度学习、人工智能的关系

人工智能的范围可以说很大、很泛,从表面上可以理解为机器的智能化,让机器像人一样能解决思考解决问题。其实人工智能核心技术包括很多的方面:推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。可以说机器学习和深度学习都是人工智能这个大主题下的一部分吧,深度学习又可以归为机器学习的一部分。简而言之,机器学习和深度学习是人工智能的两个关键的技能,看人工智能的发展历史,人工智能三大研究内容:计算机模仿人类的思考,对环境的感知和动作的实现是人工智能的三大研究内容。

即:人工智能>机器学习>深度学习

2.机器学习的适用场景

适用: 明天下不下雨,所有这些可以基于采样数据来识别和解决的问题,都可以通过机器学习来处理

无法适用: 哪个彩票号码能中五百万,这些无规律的随机事件

2.机器学习过程中的几个注意点

2.1:从感知到认知

感知的一个重要体现就是数据的获取与收集(可类比人对信息的获取,如眼睛),认知强调理解

2.2:从学习到决策

学习: 对已有数据应用相关算法进行规则/模型的计算归纳;决策:遇到新的问题时,使用学到的知识进行学习

2.3:算法和数据哪个更重要

数据秒杀一切算法,但真正推动社会的进步的是算法,而不是数据。数据就好像是工业革命时期的煤炭,非常重要,蒸汽机就像是算法,最后大家记住的是瓦特发明了蒸汽机,而不是英国的煤矿。

3.机器学习常见的概念:

2.1监督学习:

监督学习的数据比较特殊,举个栗子,比如你在中学学习英语,在老师的帮助下练习英语发音,数据是你的发音和这个发音的对错/准确程度(对错/准确程度是老师告诉你的),然后算法就是你去尝试去模拟数据(发音)的规律,不断根据英语单词的拼写规律来学习发音,最终你学习到了基于拼写及句子的上下文调整发音。

2.2无监督学习:

无监督学习的数据中没有人告诉你对错信息,举个栗子,今天老师给你了一个碗,里面有黑米有红米,让你对这个碗里的米分个类,你可能根据颜色分类,也可能根据大小、重要分类,都没有问题,因为老师没说按什么分,对不对这个问题。

2.3降维:

降维是从更基本的维度来看问题,举个栗子,这双鞋,对其降维可以是nike这个运动品牌,也可以是运动鞋这个类目

2.4泛化:

泛华就是你学到的规则/模型的普适程度。

举个栗子吧,今天老师让你看了20个西瓜,并告诉你熟不熟,然后给你一个西瓜,问你只看外观,这个西瓜熟不熟,你可能根据以下来判断:

可能你是这么做的:看表皮,你发现20个瓜里面,瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的瓜都是熟的,但是不满足任何一个条件的都是不熟的。

所以你学到的模型如下:如果瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的,就说明是熟瓜;其它的是不熟的瓜。

但是其实有时候,纹路不明显,但其他条件满足的时候也会有一部分是熟的瓜。所以你学到的模型具有一定泛化性能,但不具有很高的泛化性能。

4.机器学习最难的是什么:

如果你思考一遍上述流程, 你可能发现一切都很容易, 从数据清洗,特征提取,到模型选择, 事实上这你就错了。 因为机器学习最难的一部 , 这里根本就没提到, 那就是把现实生产生活中的问题, 提炼成一个机器学习问题 。这需要的是你对问题本身的深刻洞察。 有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定, 那就是你如何从一个全新的领域, 去提取机器学习可以有助解决的最重要的问题。再有, 无论机器的预测多准确, 它的结果如果不是在解答人的需求, 也是一个没用的或至少不令人喜欢的东西。 比如我发明一个算法能够特别准的预测老人的寿命, 或者根据女生现在的长相推测她80岁的长相, 即使算法十分牛掰, 这样的产品估计也不是客户喜闻乐见的。

6.机器学习的应用举例

无疑,在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。

譬如,但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。

图 Google成功预测H1N1

百度预测2014年世界杯,从淘汰赛到决赛全部预测正确。

以上论述的只是从定义出发,配合栗子进行了相关概念的解释,详细的算法我们期待后面的几讲。

还有关于推荐系统和用户画像的介绍可以移步以下2个专栏: 1.什么是推荐系统(个性化内容分发)? - 知乎专栏2.比你更了解你,浅谈用户画像 - 知乎专栏

其中机器学习算法在推荐系统方面的应用,可以移步我的知乎live -《推荐算法那点事》

live地址:知乎 Live - 全新的实时问答

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容