本文一共3015字,专业人士建议阅读5-10分钟,非专业认识建议阅读10-20分钟
0.序言:
AlphaGo退役了,它赢了柯洁,也战胜了围棋五虎上将,标志着人工智能算法达到了新的高度,人工智能、深度学习、机器学习等话题也上了大家的餐桌,成了茶余饭后的谈资。本文将紧接上一讲《比你更了解你,浅谈用户画像》,我们来聊聊机器学习这个话题,本讲以入门介绍为主,技术介绍在后面的几讲展开。
1.什么是机器学习:
1.1学习的定义
近代学习是心理学的一个术语。它有广义和狭义之分。广义的学习是指人和动物在生活过程中获得个体经验的过程,是动物和人类生活中的普遍现象。如动物园里的象学会吹口琴、海狮和鲸鱼学会顶球、熊学会合掌拜谢等。狭义的学习指的是学生在学校里的学习。
1.2维基百科对于机器学习的定义
机器学习有下面几种定义:
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
1.3机器学习的三要素
数据、算法、模型
机器学习研究的是从数据中通过选取合适的算法,自动的归纳逻辑或规则,并根据这个归纳的结果(模型)与新数据来进行预测。
1.4机器学习与人类学习过程
1.5举个栗子
其实很大程度上来说机器学习与人的学习有很多共通之处,那我们先举个例子来看看人是怎么学习的,来类比机器学习。
假设有一对情侣,你是主人公(女友),2个月前,朋友给你介绍了一个男友,他是工作狂。为了互相了解,你们每周末都会一起约会吃饭;已经约会有8周了,每周吃饭男友都会比约定时间晚到10分钟-30分钟,所以你每次约会也会比约定时间晚10-30分钟,并且你总结了一个规律(如果约会前打电话他说在公司,那么基本都是晚到30分钟左右,如果他说在家里,那么基本会晚到10分钟),不过男友后来迟到的时间从10、30分钟变成了15、45分钟,你也自己调整了约定时间后到达的时间。
类比: 机器学习方法是计算机利用已有的数据(8次约会的经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。
1.6总结
人的学习有两个基本方法,一个是演绎法,一个是归纳法,这两种方法分别对应人工智能中的两种系统:专家系统和机器学习系统。所谓演绎法,是从已知的规则和事实出发,推导新的规则、新的事实,这对应于专家系统。专家系统也是早期的人工智能系统,它也称为规则系统,找一组某个领域的专家,如医学领域的专家,他们会将自己的知识或经验总结成某一条条规则、事实,例如某个人体温超过37度、流鼻涕、流眼泪,那么他就是感冒,这是一条规则。当这些专家将自己的知识、经验输入到系统中,这个系统便开始运行,每遇到一些新情况,会将之变为一条条事实。当将事实输入到专家系统时,专家会根据规则或事实进行推导、梳理,并得到最终结论,这便是专家系统。而归纳法是从现有样本数据中不断地观察、归纳、总结出规律和事实,对应机器学习系统或统计学习系统,侧重于统计学习,从大量的样本中统计、挖掘、发现潜在的规律和事实。
1.7现在常说的机器学习、深度学习、人工智能的关系
人工智能的范围可以说很大、很泛,从表面上可以理解为机器的智能化,让机器像人一样能解决思考解决问题。其实人工智能核心技术包括很多的方面:推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。可以说机器学习和深度学习都是人工智能这个大主题下的一部分吧,深度学习又可以归为机器学习的一部分。简而言之,机器学习和深度学习是人工智能的两个关键的技能,看人工智能的发展历史,人工智能三大研究内容:计算机模仿人类的思考,对环境的感知和动作的实现是人工智能的三大研究内容。
即:人工智能>机器学习>深度学习
2.机器学习的适用场景
适用: 明天下不下雨,所有这些可以基于采样数据来识别和解决的问题,都可以通过机器学习来处理
无法适用: 哪个彩票号码能中五百万,这些无规律的随机事件
2.机器学习过程中的几个注意点
2.1:从感知到认知
感知的一个重要体现就是数据的获取与收集(可类比人对信息的获取,如眼睛),认知强调理解
2.2:从学习到决策
学习: 对已有数据应用相关算法进行规则/模型的计算归纳;决策:遇到新的问题时,使用学到的知识进行学习
2.3:算法和数据哪个更重要
数据秒杀一切算法,但真正推动社会的进步的是算法,而不是数据。数据就好像是工业革命时期的煤炭,非常重要,蒸汽机就像是算法,最后大家记住的是瓦特发明了蒸汽机,而不是英国的煤矿。
3.机器学习常见的概念:
2.1监督学习:
监督学习的数据比较特殊,举个栗子,比如你在中学学习英语,在老师的帮助下练习英语发音,数据是你的发音和这个发音的对错/准确程度(对错/准确程度是老师告诉你的),然后算法就是你去尝试去模拟数据(发音)的规律,不断根据英语单词的拼写规律来学习发音,最终你学习到了基于拼写及句子的上下文调整发音。
2.2无监督学习:
无监督学习的数据中没有人告诉你对错信息,举个栗子,今天老师给你了一个碗,里面有黑米有红米,让你对这个碗里的米分个类,你可能根据颜色分类,也可能根据大小、重要分类,都没有问题,因为老师没说按什么分,对不对这个问题。
2.3降维:
降维是从更基本的维度来看问题,举个栗子,这双鞋,对其降维可以是nike这个运动品牌,也可以是运动鞋这个类目
2.4泛化:
泛华就是你学到的规则/模型的普适程度。
举个栗子吧,今天老师让你看了20个西瓜,并告诉你熟不熟,然后给你一个西瓜,问你只看外观,这个西瓜熟不熟,你可能根据以下来判断:
可能你是这么做的:看表皮,你发现20个瓜里面,瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的瓜都是熟的,但是不满足任何一个条件的都是不熟的。
所以你学到的模型如下:如果瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的,就说明是熟瓜;其它的是不熟的瓜。
但是其实有时候,纹路不明显,但其他条件满足的时候也会有一部分是熟的瓜。所以你学到的模型具有一定泛化性能,但不具有很高的泛化性能。
4.机器学习最难的是什么:
如果你思考一遍上述流程, 你可能发现一切都很容易, 从数据清洗,特征提取,到模型选择, 事实上这你就错了。 因为机器学习最难的一部 , 这里根本就没提到, 那就是把现实生产生活中的问题, 提炼成一个机器学习问题 。这需要的是你对问题本身的深刻洞察。 有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定, 那就是你如何从一个全新的领域, 去提取机器学习可以有助解决的最重要的问题。再有, 无论机器的预测多准确, 它的结果如果不是在解答人的需求, 也是一个没用的或至少不令人喜欢的东西。 比如我发明一个算法能够特别准的预测老人的寿命, 或者根据女生现在的长相推测她80岁的长相, 即使算法十分牛掰, 这样的产品估计也不是客户喜闻乐见的。
6.机器学习的应用举例
无疑,在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。
譬如,但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。
图 Google成功预测H1N1
百度预测2014年世界杯,从淘汰赛到决赛全部预测正确。
以上论述的只是从定义出发,配合栗子进行了相关概念的解释,详细的算法我们期待后面的几讲。
还有关于推荐系统和用户画像的介绍可以移步以下2个专栏: 1.什么是推荐系统(个性化内容分发)? - 知乎专栏2.比你更了解你,浅谈用户画像 - 知乎专栏
其中机器学习算法在推荐系统方面的应用,可以移步我的知乎live -《推荐算法那点事》
live地址:知乎 Live - 全新的实时问答