从Google AlphaGo到Chatbot聊天机器人、智能理专、精准医疗、机器翻译…近年来时而听到人工智能的相关消息,一夕之间这项技术攻占了各大媒体版面。
不但Google、Facebook、微软、百度、IBM 等巨头纷纷进军该领域,无人车、无人快递、智能机器人的研发和诞生,也标志着人工智能浪潮的来临。
讲到人工智能,你能想象到什么?
1. 人工智能的孕育期(1943—1955年)
现在一般认定人工智能的最早工作是 Warren McCulloch和 Walter Pitts(1943)完成的他们利用了三种资源:基础生理学知识和脑神经元的功能;归功于罗素和怀特海德的对命题逻辑的形式分析:以及图灵的计算理论。他们提出了一种人工神经元模型,其中每个神经元被描述为是”开”或”关”状态,作为一个神经元对足够数量邻近神经元刺激的反应其状态将出现到”开”的转变。神经元的状态被设想为”事实上等价于提出其足够刺激的一个命题”。例如,他们证明,任何可计算的函数都可以通过相连神经元的某个网络来计算并且所有逻辑连接词(与、或、非等)都可用简单的网络结构来实现。 McCulloch和Pitts还建议适当定义的网络能够学习。唐纳德·赫布( Donald Hebb)(1949)展示了一条简单用于修改神经元之间的连接强度的更新规则。他的规则现在称为赫布型学习( Hebbian learning),至今仍然是一种有影响的模型。
两名哈佛大学的本科生,马文·明斯基( Marvin Minsky)和 Dean Edmonds,在1950年建造了第一台神经网络计算机。称为 SNARC的这台计算机,使用了3000个真空管和B-24轰炸机上一个多余的自动指示装置来模拟由40个神经元构成的一个网络。后来在普林斯顿学,明斯基研究了神经网络中的一般计算。他的哲学博士委员会怀疑这种工作是否应该看作数学,不过据传冯·诺依曼说”如果它现在不是,那么总有一天会是”明斯基晚年证明了若干有影响的定理,指出了神经网络研究的局限性。
虽然还有若干早期工作的实例可以被视为人工智能,但是阿兰·图灵的先见之明也许是最有影响的。早在1947年,他就在伦敦数学协会发表了该主题的演讲,并在其1950年的文章”计算机器与智能( Computing Machinery and Intelligence)”中清晰地表达了有说服力的应办之事。其中他提出了图灵测试、机器学习、遗传算法和强化学习。他提出了儿童程序( Child Programme)的思想,并解释为”代替试图制作程序来模拟成年人的头脑,为什么不愿尝试制作模拟儿童头脑的程序呢?”
2. 人工智能的诞生(1956年)
普林斯顿大学曾是人工智能的另一位有影响的人物约翰·麦卡锡( John McCarthy)的阵地。1951年在那里获得哲学博士学位以后又作为教师王作了两年,接着麦卡锡搬到斯坦福大学,然后又到了达特茅斯大学,这里后来成为了公认的人工智能领域的诞生地。麦卡锡说服了明斯基、克劳德·香农( Claude shannon)和内森尼尔·罗切斯特( Nathaniel Rochester)帮助他把美国对自动机理论、神经网络和智能研究感兴趣的研究者们召集在一起。1956年夏天他们在达特茅斯组织了一个为期两个月的研讨会。会议的提案申明:
我们提议1956年夏天在新罕布什尔州汉诺威市的达特茅斯大学开展一次由10个人为期两个月的人工智能研究,学习的每个方面或智能的任何其他特征原则上可被这样精确地描迷以至于能够建造一台机器来模拟它,该研究将基于这个推断来进行,并尝试着发现如何使机器使用语言,形成抽象与概念,求解多种现在注定由人来求解的问题,进而改进机器,我们认为:如果仔细选择一组科学家对这些问题一起工作一个夏天,那么对其中的一个或多个问题就能够取得意义重大的进展。
总共有10位与会者,包括来自普林斯顿大学的 Trenchard More、来自IBM公司的阿瑟·萨缪尔( Arthur Samuel),以及来自MT的Ray Solomonof和 Oliver Selfridge.两位来自卡耐基技术学院2的研究者,艾伦·纽厄尔和赫伯特·西蒙,相当引人注目。虽然其他人也有想法且在某些情况下还有诸如西洋跳棋那样的特定应用的程序,但是纽厄尔和西蒙却已有一个推理程序:逻辑理论家( Logic Theorist,T)。对此西蒙声称:”我们发明了一个能非数值地思考的计算机程序,因此解决了古老的心身问题。”在这次研讨会之后不久,他们的程序就能证明罗素和怀特海德的《数学原理》( Principia Mathematica)的第2章中的大部分定理。据说当西蒙演示程序能为定理提供比数学原理中更短的证明时罗素非常高兴。《符号逻辑杂志》( Journal of Symbolic Logic)的编辑们却并未留下深刻的印象;他们拒绝了由纽厄尔、西蒙和逻辑理论家合著的一篇论文。
达特茅斯研讨会并未导致任何新突破,但它确实互相介绍了所有主要的人物。对随后的20年,人工智能领域就被这些人以及他们在MT、CMU、斯坦福和IBM的学生和同事们支配了。
考察一下达特茅斯研讨会的提案( McCarthy等,1955),我们可以看出为什么人工智能变成一个独立的领域是必要的。为什么人工智能中完成的所有工作不能以控制论或运筹学或决策理论的名义进行,毕竟他们与人工智能具有类似的目标?或者为什么人工智能不是数学的一个分支?第一个答案是人工智能从诞生以来就采纳了复制人的才能,如创造性自我改进和语言应用的思想。其他领域中没有一个会处理这些问题。第二个答案是方法学不同。人工智能是这些领域中唯一的显然属于计算机科学的一个分支(虽然运筹学确实共享了对计算机模拟的重视),并且人工智能是唯一试图建造能在复杂的、变化的环境中自主运行的机器的领域。
3. 早期的热情,巨大的期望(1952-1969年)
早年人工智能在有限的方面充满成功。考虑到当时简单的计算机与编程工具,以及就在几年前计算机被看成只能做算术运算这个事实,只要计算机做了任何稍微聪明的事都是令人惊讶的。总的来说,善于思考的当权人物宁愿认为”机器永远不能做X”(为获得图灵收集的这类X的一张长表参见第26章)。人工智能研究者通过论证一个接一个的X自然地做出了反应。约翰·麦卡锡把这段时期称作”瞧,妈,连手都没有!”的时代。
通用问题求解器或GPS继承并发扬了纽厄尔和西蒙的早期成就。与逻辑理论家不同该程序一开始就被设计来模仿人类问题求解协议。结果证明在它能处理的有限难题类中该程序考虑子目标与可能行动的顺序类似于人类处理相同问题的顺序。因此,GPS或许是第一个体现”像人一样思考”的程序。GPS与随后的程序作为认知模型的成功致使纽厄尔和西蒙(1976)构想出著名的物理符号系统( physical symbol system)假设,它指出”物理符号系统具有必要且充分的表示一般智能行动的手段”。他们的意思是展现智能的任何(人类或机器)系统一定通过处理由符号组成的数据结构来起作用。后面我们将看到,该假设已受到来自多个方向的挑战。
在IBM公司,内森尼尔·罗切斯特和他的同事们制作了一些最初的人工智能程序Herbert Gelernter(1959)建造了几何定理证明器,它能够证明连许多学数学的学生都感到相当棘手的定理。从1952年开始,阿瑟·萨缪尔编写了一系列西洋跳棋程序,该程序最终学到能以业余高手的水准来玩。在这个过程中,他驳斥了计算机只能做被告知的事的思想:他的程序迅速学到比其创造者玩得更好。1956年2月这个程序在电视上进行了演示,给人留下很深的印象。像图灵一样,萨缪尔也难于找到机时。他只好在夜晚工作,使用的机器是仍在BM制造厂的测试层上的计算机。
约翰·麦卡锡从达特茅斯搬到了MT,并且在那里于历史性的1958年做出了三项至关重要的贡献。根据MIT人工智能实验室的1号备忘录,麦卡锡定义了高级语言Lisp,该语言在后来的30年中成为占统治地位的人工智能编程语言。有了Lisp,麦卡锡便具有他所需的工具,但访问稀少且昂贵的计算资源仍是一个严重的问题。作为回应,他和MT的其他人一起发明了分时技术。在1958年,麦卡锡还发表了题为”有常识的程序”( Programs with Common Sense)的论文,文中他描述了意见接受者( Advice Taker),这个假想程序可被看成第一个完整的人工智能系统。像逻辑理论家和几何定理证明器一样,麦卡锡的程序也被设计成使用知识来搜索问题的解。但是与其他系统不同,它包含世界的一般知识。例如,他指出某些简单的公理如何使该程序能生成一个开车去机场的计划。该程序还被设计成能在正常的操作过程中接收新公理,从而允许它在未被重新编程的情况下获得新领域中的能力。因此意见接受者体现了知识表示与推理的核心原则:有益的是对世界及其运作具有某种形式的、明确的表示并且能够使用演绎过程来处理那种表示。引人注目的是1958年发表的那篇论文目前仍然非常重要。
1958年也是马文明斯基搬到MT的年份。然而,他和麦卡锡最初的合作并未延续。麦卡锡强调形式逻辑的表示与推理,而明斯基对使程序有效工作更感兴趣并且最终产生了种反逻辑的观点。1963年,麦卡锡在斯坦福创办了人工智能实验室。1965年,J.A.Robinson归结方法(一个完整的一阶逻辑定理证明算法;参见第9章)的发现促进了麦卡锡使用逻辑来建造最终的意见接受者的计划。斯坦福的工作强调逻辑推理的通用方法。逻辑的应用包括 Cordell Green的问题解答与规划系统( Green,1969b)和斯坦福研究院(SRI)的 Shakey机器人项目。后者第一次展示了逻辑推理与物理行动的完整集成。
明斯基指导了一系列学生,他们选择研究求解时看来好像需要智能的有限问题。这些有限域称为微观世界( microworlds)。 James Slagle的SANT程序(1963)能够求解一年级大学课程中典型的闭合式微积分问题。 Tom Evans的 ANALOGY程序(1968)能够求解出现在智商测试中的几何类推问题。 Daniel Bobrow的 STUDENT程序(1967)能够求解如下所述的代数故事问题
如果汤姆招揽到的顾客数是他做的广告数的20%的平方的两倍,并且他做的广告数是45,那么汤姆招揽到的顾客数是多少呢?
最著名的微观世界是积木世界,它由放置在桌面(或者更经常地,一个模拟桌面)上的一组实心积木组成。这个世界中的典型任务是使用一只每次能拿起一块积木的机器手按某种方式调整这些积木。对于戴维·哈夫曼( David Huffman)的视觉项目(1971)、 David Waltz的视觉与约束传播工作(1975)、 Patrick Winston的学习理论(1970)Terry Winograd的自然语言理解程序(1972)和 Scott Fahlman的规划器(1974)来说,积木世界是它们的发源地。
基于 McCulloch和pis的神经网络的早期工作也十分兴旺。 Winograd和 Cowan的工作(1963)表明大量元素可以如何共同表示一个单独的概念,同时相应增加鲁棒性和并行性。 Bernie Widrow( Widrow和Hof,1960;Widrow,1962)加强了赫布的学习方法,并称他的网络为适应机( adalines)。而且 Frank Rosenblat(1962)也用他的感知机( perceptrons)加强了赫布的学习方法。感知机收敛定理( perceptron convergence theorem)( Block等,1962)表明如果存在这样的匹配,那么该学习算法便可调整感知机的连接强度以匹配任何输入数据。
4. 现实的困难(1966-1973年)
自开始以来,人工智能研究者们并不羞于预言他们将来的成功。赫伯特·西蒙在1957年的以下说法经常被引用:
我的目的不是使你惊奇或者震惊——但是我能概括的最简单的方式是说现在世界上就有能思考、学习和创造的机器。而且,它们做这些事情的能力将快速增长直到一在可见的未来一一它们能处理的问题范围将与人脑已经应用到的范围共同扩张。
虽然像”可见的未来”那样的措词可按不同的方式来解释,但是西蒙还做出了更具体的预言:10年内计算机将成为国际象棋冠军,并且机器将证明一个重要的数学定理。这预言在40年而不是10年内实现(或者近似实现)了。西蒙的过于自信是因为早期人工智能系统在简单实例上令人鼓舞的性能。然而,在几乎所有情况下,当这些早期系统试用于更宽的问题选择和更难的问题时,结果证明都非常失败。
第一种困难起源于大多数早期程序对其主题一无所知;它们依靠简单的句法处理获得成功。一个典型的故事发生在早期的机器翻译工作中。该工作由美国国家研究委员会慷慨资助,试图加速俄语科学论文的翻译,随着1957年人造地球卫星史普尼克( Sputnik)的发射而启动。最初认为,基于俄语和英语语法的简单句法变换以及根据一部电子词典的单句子的内容。著名的从” the spirit is willing but the flesh is weak(心有余而力不足)”到”the vodka is good but the meat is rotten(伏特加酒是好的而肉是烂的)”的互相翻译(英译俄后再俄译英)说明了遇到的困难。1966年,咨询委员会的一份报告认为”尚不存在通用科学文本的机器翻译,近期也不会有”。随后取消了学术翻译项目的所有美国政府资助。现在,技术、商业、政府和互联网文档,机器翻译仍是一个不完善但广泛使用的工具。
第二种困难是人工智能试图求解的许多问题的难解性。大多数早期的人工智能程序通过试验步骤的不同组合直到找到解来求解问题。这种策略最初是有效的,因为微观世界包含很少的对象,因此是很少的可能行动和很短的解序列。在产生计算复杂性理论之前,广泛认为”放大”到更大的问题只是更快的硬件和更大的存储器的事情。例如,乐观主义伴随着归结定理证明的发展,但是,当研究者们不能证明包含多于数十条事实的定理时,很快就受挫了。程序原则上能够找到解的事实并不意味着程序就包含实际上找到解所需的任何机制。
无限计算能力的错觉并不局限于问题求解程序。机器进化( machine evolution)现在称为遗传算法( genetic algorithms)( Friedberg,1958; Friedberg等,1959)中的早期实验就是基于无疑正确的信念:通过对一段机器代码程序恰当地制造一系列小变化,便可为任意特定任务生成一个性能良好的程序。当时的想法是尝试随机的变化并用一个选择过程来保持似乎有用的变化。尽管花了数千小时的CPU时间,但几乎没有展示出任何进展。现代遗传算法使用更好的表示且已展示出更多的成就。
未能对付”组合爆炸”是包含在莱特希尔( Eighth)报告( Lighthill,1973)中的对人工智能的主要批评之一,基于该报告英国政府决定终止对除两所大学外所有大学中人工智能研究的支持(口头传说描绘了一幅稍微有点不同且更多彩的画面,具有政治野心和个人憎恶,这样的描述是离题的)。
第三种困难起源于用来产生智能行为的基本结构的某些根本局限。例如,明斯基和apet的著作《感知机》( Perceptrons)(1969)证明了:虽然可以证明感知机(神经网络的一种简单形式)能学会它们能表示的任何东西,但是它们能表示的东西很少。特别地两输入的感知机(限制为比 Rosenblatt原来研究的形式更简单的形式)不能被训练来认定何时其两个输入是不同的。虽然他们的结果没有应用于更复杂的多层网络,但是对神经网络研究的研究资助很快减少到几乎没有。具讽刺性的是,用于多层网络的新反传学习算法在20世纪80年代后期曾引起神经网络研究的巨大复兴,但实际上该算法是在1969年首次发现的( Bryson和Ho,1969)。
5. 基于知识的系统:力量的秘诀(1969—1979年)
AI研究的第一个十年呈现的问题求解的美景是一种通用的搜索机制,它试图串联基本的推理步骤来寻找完全解。这样的方法被称为弱方法( weak method),因为尽管通用,但它们不能扩展到大规模的或困难的问题实例。弱方法的替代方案是使用更强有力的、领域相关的知识,以允许更大量的推理步骤,且可以更容易地处理狭窄的专门领域里发生的典型情况。也许有人会说:要求解一个难题,你必须已经差不多知道答案。
DENDRAL程序( Buchanan等,1969)是这种方法的早期例子。它是在斯坦福开发的在那里 Ed Feigenbaum(费根鲍姆)(曾是 Herbert Simon的学生)、 Bruce Buchanan一个改行研究计算机科学的哲学家)以及 Joshua Lederberg(一个获得诺贝尔奖的基因学家)合作,以解决根据质谱仪提供的信息推断分子结构的问题。程序的输入由基本的分子式(例如,C6H3NO2)和质谱组成,质谱给出了被电子束轰击产生的各种分子碎片的质量。例如,质谱可能在m=15的地方有一个尖峰,这对应于一个甲基(CH3)碎片的质量。
一个简单版本的程序先生成与分子式一致的全部可能结构,然后预测每个结构能观察到的质谱,再与真实质谱比较。正如人们预期的一样,对于中等大小的分子而言,这是不切实际的。 DENDRAL研究者们咨询了分析化学家,发现他们是通过寻找质谱中已清楚了解的尖峰模式进行工作的,这些模式暗示了分子中的普通子结构。例如,下列规则是用来识别酮(C=O)结构(重量为28)的:
如果在x1和x2处有两个尖峰,满足
(a)(M是整个分子的质量);
(b)是一个高的尖峰;
(c)是一个高的尖峰;
(d)和至少有一个峰值比较高。
那么存在一个酮结构
认识到分子包含特定子结构,这大大减少可能的候选数量。 DENDRAL功能强大是因为
所有解决这些问题的相关理论知识都被从其在[质谱预测成分](“基本原理”)中的一般形式映射到了效率高的特殊形式(“食谱配方”)。(Feigenbaum等,1971)
DENDRAL的意义在于它是第一个成功的知识密集系统:它的专业知识来自大量的专用规则。后来的系统还吸收了麦卡锡的意见接收者( Advice Taker)方法的主旨一把知识(规则)和推理部件清楚地分离开。
有了这个经验, Feigenbaum和斯坦福的其他一些人启动了启发式程序设计项目(HPP),以研究新的专家系统( expert systems)方法论可用到其他人类专家知识领域的程度。接下来的一个主要奋斗领域是医疗诊断。 Feigenbaum、 Buchanan和 Edward Shortliffe医生开发了MYCN,用于诊断血液传染。MYCN具有450条规则,能够表现得与某些专家一样如并且表现得比初级医生好很多。MYCN与 DENDRAL有两点主要差异。首先,不像DENDRAL规则,不存在通用的理论模型可以从中演绎出MYCN规则。他们不得不从专家会见大量病人的过程中获取规则,而专家进而又从书本、其他专家以及案例的直接经验中获取规则其次,规则必须反映与医疗知识关联的不确定性。MYCN吸收了称为确定性因素( certainty factors)的不确定性演算,似乎(在当时)很符合医生如何评估诊断证据的作用的情况。
领域知识的重要性在自然语言理解领域也很明显。尽管 Winograd的理解自然语言的SHRDLU系统让人们非常兴奋,它对句法分析的依赖引起了在早期机器翻译工作中出现的同样的问题。它能够克服歧义性并能理解代词指代,但这主要是因为它是为一个特定领域积木世界—设计的。一些研究者,包括 Eugene Charniak他是 Winograd在MT带的一名研究生,提出鲁棒的语言理解将需要关于世界的一般知识和使用知识的一般方法。
在耶鲁,语言学家出身的AI研究者 Roger Schank强调了这一点,宣称”没有语法这样的东西”,这打击了很多语言学家,但又确实发动了一场有用的讨论。 Schank和他的学生们建立了一系列程序( Schank和 Abelson,1977;Wilensky,1978;Schank和 Riesbeck,1981;Dyer,1983),都有自然语言理解的任务。然而,重点不在语言本身上,而是更多地集中在利用语言理解所需的知识进行表示和推理的问题上。问题包括表示固定不变的环境(Cullingford,1981),描述人类记忆组织( Rieger,1976; Kolodner,1983),以及理解规划和目标( Wilensky,1983)。
对现实世界问题的应用的普遍增长同时引起了对可行知识表示方案的需求的增长。大量不同的表示和推理语言被开发出来。有些是基于逻辑的一例如, Prolog语言开始在欧洲流行, PLANNER家族在美国流行。其他人追随 Minsky的框架(fame)(1975),采用了更加结构化的方法,集成了关于特定对象和事件类型的事实,并把这些类型安置在一个大的类似于生物分类学的分类层次中。
6. 人工智能成为产业(1980年一现在)
第一个成功的商用专家系统R1开始在数据设备公司(DEC)( McDermott,1982)运转。该程序帮助为新计算机系统配置订单:到1986年为止,它每年为公司节省了估计400万美元。到1988年为止,DEC公司的AI研究小组已经部署了40个专家系统,还有一些正在研制中。杜邦( DuPont)公司有100个专家系统在使用中,另有500个在开发中,每年估计为公司节省1000万美元。几乎每个主要的美国公司都有自己的A研究小组,并且正在使用或者研发专家系统。
1981年,日本宣布了”第五代计算机”计划。这是一项为期10年的计划,以研制运行 Prolog语言的智能计算机。作为回应,美国组建了微电子和计算机技术公司(MCC)作为保证国家竞争力的研究集团。两个案例中,A是研究计划的一部分,这些研究计划包括芯片设计和人机接口研究。在英国,艾尔维报告( Alvey report)恢复了因赖特希尔报告( Lighthill report)而停止的投资1。然而,在这三个国家中,这些项目从来都没有实现过它们野心勃勃的目标。
总的来说,AI产业从1980年的区区几百万美元暴涨到1988年的数十亿美元,包括几百家公司研发专家系统、视觉系统、机器人以及服务这些目标的专门软件和硬件。之后个被称为”人工智能的冬天”的时期很快来临,期间很多公司都因无法兑现它们所做出的过分承诺而垮掉。
7. 神经网络的回归(1986年一现在)
在20世纪80年代中期,至少4个不同的研究组重新发明了由 Bryson和Ho于1969年首次建立的反传( back-propagation学习算法。该算法被用于很多计算机科学和心理学中的学习问题,而文集《并行分布式处理》( Parallel Distributed Processing)( Rumelhart和McClelland,1986)中的结果的广泛流传引起了人们极大的兴奋。
智能系统的这些所谓连接主义( connectionist)模型被有些人视为是对 Newell(纽厄尔)和 Simon(西蒙)倡导的符号模型以及 McCarthy(麦卡锡)和其他人( Smolensky,1988)主张的逻辑方法的直接竞争者。也许看来很明显,人类在某些层次上处理的是符号—事实上, Terrence Deacon的著作《符号的物种》( The Symbolic Species)(1997)指出这是人类的定义特性,但是大多数激进的连接主义者质疑符号处理在认知的精细模型中是否有任何真正的解释作用。这个问题还没有答案,不过当前的观点认为连接主义方法和符号主义方法是互补的,不是竞争的。就像AI与认知科学的分离一样,现代神经网络研究分离成了两个领域,一个关心的是建立有效的网络结构和算法并理解它们的数学属性,另一个关心的是对实际神经元的实验特性和神经元的集成的建模。
8. 人工智能采用科学方法(1987年一现在)
近些年来我们已经看到人工智能研究在内容和方法论方面发生的革命。现在更普遍的是在现有理论的基础上进行研究而不是提出全新理论,把主张建立在严格的定理或者确凿的实验证据的基础上而不是靠直觉,揭示对现实世界的应用的相关性而不是对玩具样例的相关性。
AI的建立,部分是出于对类似控制论和统计学等已有领域的局限性的叛逆,但是它现在开始接纳那些领域。正如 David McAllester(1998)指出的:
在AI的早期,符号计算的新形式是值得称道的,例如框架和语义网络,它们使得很多经典理论失效,这导致形成一种孤立主义,AI与计算机科学的其他领域之间出现巨大鸿沟。这种孤立主义目前正被逐渐抛弃人们现在认识到,机器学习不应该和信息论分离,不确定推理不应该和随机模型分离,搜索不应该和经典的优化与控制分离,自动推理不应该和形式化方法与静态分析分离。
在方法论方面,A最终成为坚实的科学方法。为了被接受,假设必须遵从严格的经验实验,结果的重要性必须经过统计分析( Cohen,1995)。通过利用共享测试数据库及代码,现在重复实验是可能的。
语音识别领域阐明了这种模式。在20世纪70年代,人们尝试了大量的不同体系结构与方法。其中许多都相当特殊和脆弱,仅仅在几个特定样本上进行了演示。近些年,基于隐马尔可夫模型( (hidden Markov models)(HMMs)的方法开始主导这个领域。HMM的两个方面是有关的。首先,它们是基于严格的数学理论基础的。这允许语音研究者们以其他领域中发展了数十年的数学成果为根据。其次,它们是通过在大量的真实语音数据上的训练过程生成的。这保证了性能是鲁棒的,而且在严格的盲测试中,HM不断地提高着它们的得分。语音技术和与之有关联的手写字符识别已经开始转向广泛用于工业和个人应用注意,没有科学断言说人类识别语音是用了HMM:HMM只是为理解这个问题提供了一数学框架,并支持了”它们在实际中工作得很好”的工程断言。
机器翻译步语音识别的后尘。在20世纪50年代人们开始热衷于基于单词序列的方法具有根据信息论原理学习到的模型。20世纪60年代,这种方法开始被冷落,但到20世纪90年代末它又被重新捡起,目前主导着这个领域。
神经网络也符合这个趋势。很多神经网络方面的工作在20世纪80年代得以完成,试图弄清神经网络到底能做什么,并了解神经网络与”传统”技术之间到底有多大差别。通过改进的方法论和理论框架,这个领域达到一个新的理解程度—神经网络可以和统计学模式识别、机器学习等领域的对应技术相提并论,并且其最有前途的技术可以用在每个应用上。作为这些发展的结果,所谓数据挖掘( data mining)技术促生了一个有活力的新工业。
随着研究兴趣的复苏— Peter Cheeseman(1985)在文章《保卫概率》(In Defense of Probability)中进行了概括, Judea Pearl(1988)的《智能系统中的概率推理》(Probabilistic Reasoning in Intelligent Systems)导致了AI对概率和决策理论的新轮接纳。贝叶斯网络( Bayesian network)的形式化方法被发明出来,以对不确定知识进行有效表示和严格推理这种方法极大地克服了20世纪60年代和70年代的概率推理系统的很多问题;它目前主导着不确定推理和专家系统中的AI研究。这种方法允许根据经验进行学习,并且结合了经典AI和神经网络的最好部分。 Judea Pearl和 Eric Horvitz以及 David Heckerman的工作(Judea Pearl,1982a; Horvitz和 Heckerman,1986; Horvitz等,1986)促进了规范专家系统的思想:它们根据决策理论的法则理性地行动,并不试图模仿人类专家的思考步骤。 Windows操作系统包含了几个用于纠正错误的规范诊断专家系统。
类似的温和革命也发生在机器人、计算机视觉和知识表示领域。对问题和它们的复杂特性的更好理解,加上日益增加的数学成分,导致了一些可行的研究计划和鲁棒的方法尽管日益增长的形式化和专门化导致视觉和机器人这样的领域在20世纪90年代一定程度上从”主流”AI研究工作中分离出来,这种趋势在近些年已经逆转,特别是机器学习工具已经证明对于许多问题都是有效的。
9. 智能 Agent的出现(1995年一现在)
也许受到解决人工智能中一些子问题的进展的鼓舞,研究者们开始再一次审视”完整Agent”问题。 Allen Newell(艾伦·纽厄尔)、 John Laird和 Paul Rosenbloom在SoAR系统上的工作( Newell,1990:.aid等,1987)是最有名的完整 Agent结构的例子。智能Agen最重要的环境之一就是 Internet(互联网)A1系统在基于web(万维网)的应用中变得如此普遍,以致”bot(机器人)”后缀已经进入日常用语。此外,AI技术成为许多Intern工具的基础,例如搜索引擎、推荐系统以及网站构建系统。
试图建立完整 Agent的一个结果是,人们认识到当需要把它们的结果综合起来时,以前被孤立的AI子领域需要被重新组织。特别是,人们普遍意识到传感器系统(视觉、声呐语音识别等)不能完全可靠地传递环境信息。因此,推理和规划系统必须能够处理不确定性Agent观点的另一个主要结果是,AI与其他领域已经被拉得更靠近了,例如控制论和经济学这些领域也处理 Agent。机器人驾驶汽车的最新进展来源于许多方法的混合,包括更好的传感器,以及对传感、定位和绘制地图的控制理论的综合,还有一定程度的高层次规划。
尽管有这些成功,一些有影响的A创建者,包括 John McCarthy(2007)、Marvin Minsky(2007)、 Nils Nilsson(1995,2005)和 Patrick Winston(Beal和 Winston,2009)都表达对AI进展的不满。他们认为AI应该少把重点放在改进对特定任务表现很好的应用,例如驾驶汽车、下棋或者语言识别。转而,他们相信AI应该回到它的根:致力于用 Simon的话就是”会思考、学习和创造的机器。”他们称这为人类级 AI(human- level al,缩写为HLAI)他们在2004年举行了首次讨论会( Minsky等,2004)。这需要非常大的知识库;Hendler等(1995)讨论了这些知识库可能源于何方。
一种相关的思想是人工通用智能(AGI, Artificial General Intelligence)( Goertzel和Pennachin,2007)子领域,在2008年举办了首次会议,并组建了期刊《Journal of Artificial General Intelligence》。AGI寻找通用的在任何环境中的学习和行动算法,它的根源可以追溯到 Ray solomonofft(1964)的工作,他是1956年 Dartmouth会议的参与者之一。”确保我们所建立的是真正友好的AI( Friendly Al)”也是我们关心的问题( Yudkowsky,2008;Omohundro,2008)。
10. 极大数据集的可用性(2001年一现在)
纵观计算机科学的60年历史,作为学习的主要科目,AI的重点一直放在算法上。但A1最近的一些工作认为多关心数据而不必太挑剔所用的算法会更有意义。确实如此,因为我们拥有与日俱增的大规模数据源:例如,Web上有数万亿个单词和几十亿幅图像( Kilgarriff 和 Grefenstette,2006):基因序列有几十亿个碱基对( Collins等,2003)。
这方面有影响力的一篇论文是 Yarowsky(1995)在词语歧义消除方面的工作:在一个句子中给定单词” plant”,它是指fora(植物)还是指 factory(工厂)呢?以前对这个问题的解法依赖于人类标注的样例,并结合机器学习算法。 Yarowsky证明这个任务根本不需要标注样例就可以完成,正确率可达到96%以上。给定大量的无注解的文本和两种含义的字典定义“ works, industrial plant”和”flora,plant life”我们可以在这些文本里标注样例,并由这些样例自展( bootstrap)学习能帮助标注新样例的新模式。 Banko和Bril(2001)证明了当文本从100万个单词增加到十亿个单词时,这种技术会表现得甚至更好,而且采用更多数据带来的性能提升超过选用算法带来的性能提升。一个普通算法使用一亿个单词的未标注训练数据,会好过最有名的算法使用100万个单词。
作为另一个例子,Hays和Efos(2007)讨论了在照片中补洞的问题。假设你通过Photoshop从一组照片中将一位曾经的朋友用马赛克模糊掉,但现在你需要用与背景匹配的某些东西来填补马赛克区域。Hays和Efos定义了一个算法,从一组照片里搜索,以找出可以匹配的东西。他们发现,如果他们只用一万张照片,那么他们的算法的性能会很差但如果照片增加到两百万张时,算法会一跃而表现出极好的性能。
这些工作表明,A中的”知识瓶颈”——如何表达系统所需的所有知识的问题一在许多应用中都可以得到解决,可以使用学习方法,而不是通过手工编码的知识工程,只要学习方法有足够的数据可用( Halevy等,2009)。新闻记者已经注意到新应用的涌现,他们写到”人工智能的冬天”也许正释放出一个新的春天( Havenstein,2005)。就像Kurzweil(2005)写到的一样,”今天,数千个AI应用已经深深地嵌到了日常生产的基础设施中。”