《从零开始学习自然语言处理(NLP)》-基础准备(0)

写在最前面

在这个日新月异的信息时代,海量数据的积累,计算能力的不断提升,机器学习尤其是深度学习的蓬勃发展,使得人工智能技术在不同领域焕发出蓬勃的活力。自己经历了嵌入式开发,移动互联网开发,目前从事自然语言处理算法开发工作。从工程软件开发到自然语言处理算法开发,希望通过这个系列的文章,能够由浅入深,通俗易懂的介绍自然语言处理的领域知识,分享自己的成长,同大家一起进步。

信心与兴趣

很多同学提到算法可能就会打退堂鼓,尤其是一直从事纯工程的软件开发。工作中连经典的数据结构都很少使用,更不用提五花八门的机器学习和深度学习算法。尤其各个大厂的算法专家、数据科学家都是背景爆表,动不动就是国外名校的Phd,至少也是国内清北、C9。实际上,针对普通的算法开发岗,从学习梯度上来讲,算法和工程的差异并不大。当然也并不需要非要名校硕博。
以前经常和同事开玩笑说,好歹大家都是985的本硕,但手上这工作,找个高中生也能妥妥搞定啊。虽然是玩笑,线上的产品当然也不是像Demo那么简单,但真实的工作真的没有那么明显的条条框框限制。自己也是面试官,百度这样的大厂对普通的开发要求也只是大专。针对普通的算法开发,自己觉得本科基本足够了,当然更没有像211/985这样的限制。
一般来讲,从事某个领域的工作,从底层基础到业务实现一般包括如下的几个层次(以互联网移动开发和算法开发为例):

方向 通用基础 专业基础 领域基础 业务方向
移动开发 操作系统、计算机网络、编译原理、数据结构、编程语言、设计模式 Android开发、iOS开发 驱动开发、Framework开发、应用开发 电商、社交、智能硬件
算法开发 编程语言(python)、数学基础(线性代数、概率/统计、微积分) 机器学习,深度学习 语音、自然语言理解、计算机视觉、推荐、计算广告、风控 搜索,智能客服,广告推荐,互联网金融

从技能栈的对比来看,算法开发对数学要求要高些,这又会让很多同学看着头痛。实际上对数学的恐惧主要原因在于,对大多数人来说,数学主要是用来应付作业和考试的,而很少在真实的工程场景中使用它。
自己的本科专业是电子信息方向(觉得空闲时间多,顺手拿了个计算机科学与技术的双学士),有一些专业课程也蛮让人头痛的,比如《通信原理》、《信号与系统》、《数字信号处理》、《微机原理》、《数字电路》等,五花八门的抽象概念和算法公式。当时参加全国大学生电子设计竞赛,选入的学校的电子设计校队,参加系统的学习和培训(有半年的时间参加集中培训,不用像其他同学一样日常上课):
当大家还在纠结《通信系统》里的调制解调原理时,我们已经在做单边带调制收音机了;
当大家还在纠结《信号与系统》的傅里叶变换时,我们已经在做基于快速傅里叶变换的频谱仪了;
当大家还在纠结《数字信号处理》里的滤波器时,我们已经在做50Hz及其谐波过滤的工频陷波器了;
当大家还在纠结《微机原理》的X86汇编指令时,我们已经用上工业级的Msp430和C8051F系列控制器了;
当大家还在纠结《数字电路》的逻辑控制和抱怨VHDL难学时,我们已经在用Verilog玩Altera的FPGA了。
本来是非常枯燥有难以对付的专业课,但有了实际的使用场景和工程实践,反而变得非常有趣,不但专业课的教材就在手边经常翻阅,还会专门找相应的Paper,看看有没有更好更新的方案。自己对这些专业课不但没有反感,反而觉得超级有用,知识就是力量,在这一刻特别贴切。
我们回过头来说数学,也是同样的体验。算法的开发工作为数学和算法提供了实践的土壤,理论有了实践这块沃土,也就不再那么枯燥和晦涩。像很多数学大神一样徒手推公式确实是件很难的事情,但基于基础的数学知识来解决工程问题,这并没有想象中的那么难。而且,学习本来就是一个往复的过程,先有一个大概,尝试用已有的知识解决问题,当问题解决不掉时,再反过来学习自己欠缺的知识。
说了信心再说兴趣,很多同学会觉得目前机器学习和深度学习大火,是不是就该放弃手上的工程岗位,全力以赴的加入到算法的大军中。自己觉得要不加入这个方向还是看个人兴趣吧,现在算法岗位炙手可热,但三五年之后就不好说了。典型的就是Android/iOS移动开发,10年左右如日中天,市场蓝海,人才紧俏,公司抢人的盛况应该跟现在差不多。收益的决定因素是市场,但个人的成长从长期来看,还要看自己的兴趣。依照T型能力理论来说,深度方面,前端、后台、架构、嵌入式、客户端都OK;广度方面,机器学习和深度学习不论从是否要从事相关的领域开发,花些时间了解和学习一下,总的来说也还是不错的。
好了,下面我们就具体看看从事自然语言处理需要准备的基础知识吧。

编程语言

编程语言的要求是很低的,弄掌握Python就基本OK。我的自己经验是:

  • 1 在网上找一篇Python入门的帖子,搭建环境,运行简单的例子(半天)
  • 2 找一本基础书籍,系统的熟悉下语言的基本特性和完整框架(1~2天)
    ps:我之前有C/C++和Java的语音基础
  • 3 开始正常使用Python进行开发,遇到问题,求助搜索引擎(2个月以上)
  • 4 觉得自己对语言就基本的掌握后,可以根据选择进行进阶学习了
    系统的基础学习可以参考:《Python基础教程》
    晋级学习可以参考:《流畅的Python》

经典数据结构与算法

经典的数据结构和算法,主要指数组、链表、队列、堆栈、树、图这样的经典数据结构,以及各种排序/查找、深度搜索、广度搜索、最小路径、Hash等算法。对一般的算法开发,这部分不是必须项。如果时间有限,可以跳过这部分。但从长远来看,无论是普通的工程开发还是算法开发,经典的数据结构和算法还是必要了。
落实到具体的学习上,基础的《数据结构与算法》应该随便一本教科书都OK。在实际操作方面,可以抽空刷一刷LeetCode,书的话可以考虑《进军硅谷,程序员面试解密》,内容基本都是LeetCode的原题,可以先刷题再看书。如果LeetCode上能持续刷上200+的题目,以后面对经典的数据结构和算法问题,应该也就没有恐惧的感觉了,反而遇到新问题还会饶有兴趣的去研究研究解决方案。

数学基础

对于算法开发,本科学习的《微积分》、《线性代数》、《概率/统计》基本上就够用了。有些同学会提到《概率图模型》和《凸优化》等。我觉得对于入门来说,前面的三门课基本够用,后面如果真的觉得需要深入,再看后面的内容也不迟。
如果觉得当时大学的课程成绩还不错,那最快的方法就是把大学的教材拿出来重新再扫一般即可。如果觉得时间充裕,想再系统的学习一遍,在线视频是个不错的选择,
MIT:《单变量微积分》
MIT:《线性代数》
可汗学院:《概率》
可汗学院:《统计学》
学习的过程不要太苛求全面理解,没必要像数学大牛一样能把所有的公式都手动的推导一遍。能理解基本的概念和原理,关键是有系统的知识框架,后面遇到细节问题,可以回过头来再看。

机器学习

这部分目前资料应该是铺天盖地的多,当然还有各式各样的培训班。自己觉得从入门角度,只要把吴恩达在Coursera上的机器学习课程完整的学习完,并完成作业拿到证书,机器学习这部分就算及格了。
Coursera:《MachineLearning》
一定要完成作业!一定要完成作业!一定要完成作业!重要的事情说三遍。
Coursera不翻墙速度好像有些慢,网易云课堂也有视频,但不能提交作业作业。
至于书的话,可以看看周志华老师的“西瓜书”:《机器学习》

深度学习

看完前面机器学习的内容你会发现两个事情:

  • 机器学习的各种算法好像都是些非常经典的算法,基本都是2000年之前提出的
  • 现在大家都在搞深度学习了,这些老掉牙的算法越来越没人用了
    真实情况也大抵如此,如果直接跳过机器学习直接学习深度学习可以吗?当然可以啊,而且,直接学习深度学习还会觉得深度学习的入门门槛更低。
    这估计会让很多同学觉得反常识。但反过来你问问自己,如果没有学习过汇编,上来就用C语言搞嵌入式应用开发可以吗?没有学习过C++,上来就用Java搞Android开发可以吗?当然可以啊。从入门角度没问题,但从长期来看还是需要的,想深入一个领域,知识的完备是必要的。比如嵌入开发用汇编写过两级中断向量表,做Android开发也开发过JNI。
    深度学习也是一样,从最快入门的角度来看,可以跳过机器学习,直接进入深度学习,但从长期看机器学习还是必要的。而且,看完了吴恩达的《机器学习》课程,再看他的深度学习也更流畅。
    Coursera:《DeepLearning》
    一定要完成作业!一定要完成作业!一定要完成作业!重要的事情说三遍。
    补充下,吴恩达在Coursera上的课程,《MachineLearning》是免费观看的,在线作业是付费的。《DeepLearning》无论是视频还是在线作业都是付费的。网易云课堂有免费的视频课程,但不能提交在线作业。其实,Coursera上的课程也挺便宜的,做完作业还有证书,还是挺不错的。
    至于书的话,可以看看“花书”《深度学习》

自然语言处理

好了终于到了这篇文章的核心部分了,因为是专业基础,所有市面上的系统学习资料也就没前面那么多了。但仔细找找的话也不少(都需要翻墙,手动捂脸):
经典自然语言处理(斯坦福):《Natural Language Processing course by Dan Jurafsky and Christopher Manning》
经典+深度学习(National Research University Higher School of Economics):《Natural Language Processing》
深度学习自然语言处理(斯坦福):《Natural language processing with DeepLearning》
深度学习自然语言处理(CMU):《CMU Neural Nets for NLP》
除了第一个之外,后面的视频都比较新。相对来说,书的资料就相对滞后了,如果有兴趣可以翻翻经典的宗成庆的《统计自然语言处理》,主要是针对经典的自然语言处理方法,虽然方法是经典的,但领域问题的描述还是很全面的。

小节

总的来说,算法开发和普通的工程开发,从学习梯度上来讲差别不大,也不需要高大上的背景和学历。确定兴趣,看好方向,就坚持一步一步积累,理论结合实践,相信很快你也能像我一样,跨过算法开发的门槛,体会用算法解决实际工程问题的乐趣。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336

推荐阅读更多精彩内容