1 走下神坛的机器学习
我们马上就要进入20世纪的第3个十年啦,而人工智能和机器学习,也已经火了差不多有六七年的时间了。
从Hinton团队在2012年的ImageNet大赛中用神经网络模型一举夺魁开始,AI频频出圈。2014年吴恩达在Coursera 开了机器学习课,2015年周志华老师出了西瓜书,而2017年李彦宏把无人驾驶车开上了五环,AlphaGo打遍天下无敌手,波士顿动力机器人学会了后空翻,人工智能热到了极致。
——大家觉得,生活和信念正在被颠覆,崭新的时代即将来临。
到了2020年,虽然人工智能和机器学习热度仍在,却没有什么“惊天地泣鬼神”的新东西出场,和前两年相比,机器学习在媒体中的热度降温了。
那么,机器学习还香吗?内卷了吗?
现在开始学机器学习,还来得及吗?
先说一件事:
也就是两、三年前吧,有天早上一小美女同事带着熬夜排到的iPhone进了公司。大家呼啦一下围上来。最开始屏幕是锁着的,然后小姐姐面带着微笑把电话往自己脸前一晃——好帅啊,手机解锁了!当时我们这些围观群众都惊呆了……心想这什么黑科技啊……
这场景要是在今天重放一遍,大家会不会把我们全体人当傻子?—— 老土啊!不就是一人脸识别吗?这破技术早都烂大街了……
我说这件事是什么意思呢?——现在技术落地的速度,实在是太快了。一种“黑科技”,从实验室里面走出来,从学术界到工业界,简直是零距离。
事实上,机器学习开始真正吸引眼球,是从其分支深度学习的出现开始的。作为一种突破性的技术,深度学习把AI提升到了一个崭新的高度。新的飞跃确尚未出现。但是机器学习和深度学习在数据分析、计算机视觉、自然语言处理、自动驾驶和机器人等场景中,具体的应用一个接一个的落地,层出不穷。因此,深度学习之后的主要发展,不全是技术的发展,而是实际应用场景的广泛拓展。
因此,我的答案是机器学习并没有内卷,他正在走下神坛,从学术殿堂的象牙塔中逐渐落地,成为一种应用技术。
在未来的AI世界中,会存在两种人:
• 第一种是继续寻求AI创新的算法工程师、数据科学家,努力寻找更好的算法和新的技术突破;
• 第二种是机器学习的应用者,对他们而言,机器学习就向Java/C++、Excel/PPT一样,只是解决问题的一种手段。是像英文、驾车一样不得不会的工具。
第二种人会比第一种人多很多,也一样会很有价值。
也就是说,只要你从事与大数据、IT相关的工作,你可能就得多少学点机器学习的知识,多少会使用一些机器学习模型。——即使你的目标并不一定是成为机器学习和算法工程师。
也许:
- 你需要对未来的业务数据进行预测——可以应用回归和分类模型;
- 你需要进行大数据的分析和处理——比如开发或优化推荐系统;
- 你需要对非结构化的图片进行特征提取——比如为产品加入人脸识别功能;
- 你需要通过强化学习训练智能体——比如训练更聪明的聊天机器人。
下图是一些机器学习的种类和应用场景,大家可以看看(覆盖未必很全面,因为机器学习的应用领域发展太快)。
2 为什么写这本书
这本书,正是写给需要“懂”机器学习,并需要在工作中用到机器学习技能的人的。
市面上,深奥的理论和细抠算法的资料太多。而如何从零基础开始,手把手教人“用”机器学习的教程太少。
这就像一个人来到驾校想学车,而驾校的教练带他走进了造汽车的工厂,说:”来,小伙子,我们详细讲一讲你面前的这辆车是怎么造出来的。”
——这样不合适,顺序反了。
应该是先学会开车,把车开好了,然后如果真有兴趣,再去了解车的内部结构。
为什么我这么看中“开车”而不是“造车”?这和我的职业有关。
我是技术顾问出身,年轻时出过几本很普通的SAP书(凡尔赛),后来一直给一家大客户做SAP系统实施和维护,生活像温水中的青蛙一样平静……
突然有一天,大客户说,SAP License太贵了,我们准备停用了。上云。你们给找找云软件,替代掉SAP。
从那天开始,我们这组人的生活就不再平静了。大家各显神通,也经历了各种培训,一段时间之后,都化身为了云计算、AWS、Azure和各种SaaS供应商的专家,为客户提供云解决方案。
然而好景不长,客户成功上云之后,我们再次面临没事可做的窘境。
新的增长点在何处呢?(打工人!总要恰饭)
思考之后,我们有2个主要发现:
- Workday、Salesforce这样的SaaS软件、AWS等云服务实在太好用了,让客户从繁琐的业务流程中逐渐解脱出来;
- 客户开始把眼光投向他们手头所积累的数据,并希望我们能利用这些数据,为他们解决运营或者增长相关的高附加值问题,即产生洞见,优化运营。
原来的客户抛给我们的第一个新项目,就是通过收集的详细用户信息,对用户进行画像,然后找出具有高欺诈风险的群体,他们将进行对其账户更严格监管。
另一个客户给我们的挑战更大——他们是印尼一个较大的打印纸生产商,拥有上万公顷的树林,他们问题是每年需要派出大量的人力、物力,去深入森林勘察,侦测出今年哪个片区的森林已经成熟,值得砍伐。
新项目一个接一个的来了。
我们发现——这些“新”的“不同”类型的有趣项目,无不与数据相关,无不与“机器学习”相关。
如果你了解一些AI具体技术,你应该会知道第一个项目是一个典型的机器学习问题,而第二个项目,解决方案是使用无人机进行航拍,收集海量视频和图片数据,然后通过深度学习的方法发现图片中的颜色和模式,然后智能定位已经成熟或者发育不良的林区,对症下药。
好了,从这时起,我们又摇身一遍,从“云计算”专家化身“机器学习”应用专家。
——其实,这个变身的过程,与我在《零基础学机器学习》书中所描述的故事大同小异。
说了这么多,这些事情到底与这本书的创作有何关联呢?
作为一个咨询顾问,我有自己的创作目的:就是从实际出发,强调“机器学习的应用过程”,想象着有一群像我一样的,具有一定IT背景的读者、学生,从0基础开始学起,该如何循序渐进,逐步深入,不多不少,恰到好处的给出其入门机器学习所最需要用到的知识?以节省它们的时间和精力呢?
因此这本书就是我在机器学习项目实战过程中,所发掘到的对实际工作最有价值的内容记录,能够让“应用型”的你作为接触机器学习的良好起点。
3 如何零基础入门
那么,如何入门机器学习呢?
这里总结一个较为轻松的入门路线,无论是否阅读《零基础学机器学习》,都可以参考一下。
①打消掉畏难情绪
我第一个要打破的刻板印象就是——机器学习很难,里面有一大堆的算法。
这主要是由于信息过载,初学者往往不知道从何开始,一开始一大堆新概念和算法上来头就晕。
我太了解这种知识过载给人带来的焦虑和苦恼了。因为我本人也不是一个研究型的学习者,读论文可从来不是我的强项。
大家首先可以放心,机器学习——真的不难!而且比起前端/后端、Java、C++、微服务和分布式系统开发等互联网技术相比,入门机器学习不仅不难,而且还是太简单了!
我在《零基础学机器学习》中,特意设置了2个角色:
这本书用小冰的学习过程,串起了整本书的学习流程。初学者容易遇到的问题,小冰这个AI小白都会碰到,此时技术专家咖哥则从各种角度给以指导。
有小伙伴一起,你也可以轻松而快速地入门机器学习!
②打牢入门基础
在此基础上,增加机器学习必备的基础知识和实战构架,这是最最重要的内容。
请牢记,无论学习哪一领域,大家一定要在一开始就看到全貌,这样才能有的放矢。
下图是机器学习上手就需要掌握的内容,只学起来一点都不会累。只需要花费不到一周的时间,就能打牢入门基础。
夯实这些机器学习领域的基础知识后,我们就可以上路了。
③从实战出发解决实际问题
解决了“入门难”这个事儿之后呢,下一个着力点是“我们要用机器学习干什么?”
学一样东西,如果没有看到学了之后具体有什么用,怎么使用,那简直是浪费时间。
所以,如果想让自己的学习有结果,就要特别强调实战。
实战案例的选择,需要具有实用性,比如银行客户流失率的预测、疾病风险评估、网站用户的聚类等等。大家可以在Kaggle网站上寻找数据集、训练机器,参加机器学习竞赛,只有解决了实际问题,才能明白机器学习是怎么一回事。
对于我来说,一切抛开实际应用的理论都不是为入门阶段的读者所准备的,所以我在书中也准备了非常多的训练项目。此外,我还添加了一个小小的设计——
一般的课程思路是这样的:
- 讲解理论 →介绍工具→解决问题
这本书的设计思路是这样的:
- 提出问题→讲解理论→介绍工具→解决问题
这一小小的设计,会让待解决的问题在整个学习过程中一直在我们的头脑中打转,也让我们的学习过程充满目的性。
以结果为导向,是我在学习过程中所特别强调的。
④总结出一个实战套路反复演练
重点来了,有了学习目标,还需要一个完善的、经过实证检验的套路,方便大家检验习得的技能。
那么机器学习实战有没有套路?
有套路,请看下图:
这是在机器学习项目实践中总结出来的流程, 在书中所有具体机器学习项目实战章节中,全部套用同一个实战套路。
具体包括:
• 线性回归,
• 逻辑回归,
• 深度学习,
• 卷积神经网络,
• 循环神经网络,
• 集成学习,
• 非监督学习,
• 生成式对抗网络,
• 强化学习等
将各种各样的机器学习模型反复演练,强化上图中的套路,每强化一次,你就会觉得机器学习愈发简单,而且逐渐变得充满乐趣。
下图就是《零基础学机器学习》为新手精心设计的入门路线。
好了,说了这么多书的事儿,我们回到文初的问题上面:机器学习内卷了吗?
——机器学习当然没有内卷,机器学习只是正在被越来越多的人所了解,正在被越来越多的企业所应用,正在渗透进我们生活中的方方面面。这叫做落地,而不叫什么“内卷”。
使用机器学习的技术,去解决工作和生活中具体的问题,在数据中提炼出价值,那是多酷的一件事情!