《AI 3.0》第五部分 14 正在学会“理解”的人工智能

第五部分常识——人工智能打破意义障碍的关键

14 正在学会“理解”的人工智能

数学家兼哲学家吉安-卡洛·罗塔提出问题“我想知道人工智能是否以及何时能打破通向意义的障碍。”。“意义的障碍”（barrier of meaning）这一短语完美地捕捉到了贯穿于全书的一个思想：人类能够以某种深刻且本质的方式来理解他们面对的情境，然而，目前还没有任何一个人工智能系统具备这样的理解力。
人工智能系统都缺乏理解人类在感知、语言和推理上赋予的丰富意义的能力。这一理解力的缺乏主要表现在以下方面：非人类式错误、难以对所学到的内容进行抽象和迁移、对常识的缺乏、面对对抗式攻击时所呈现出的脆弱性等。人工智能和人类水平智能之间的“意义的障碍”至今仍然存在。

理解的基石

人类天生具备一些核心知识，就是我们与生俱来的或很早就学习到的最为基本的常识。例如，即便是小婴儿也知道，世界被分为不同的“物体”，而且一个物体的各个组成部分会一起移动，同时，即便某一物体的某些部分在视野中看不见了，它们仍然是该物体的一部分，例如，图中婴儿车后那位行人的脚。这就是一种不可或缺的常识！但是，即使给一个ConvNets大量的照片或视频数据来进行训练，它也未必能学会这些常识。
孩提时代，我们人类学习了大量关于世界上的物体如何运转的知识，在我们成年后，就完全将其视为理所当然，甚至意识不到自己具备这些知识。

如果你推一个物体，它就会向前移动，除非它太重或者受到其他物体的阻挡；
如果你扔下一个物体，它会落下，然后在接触到地面时会停住、弹起来或者破裂；
如果你把一个较小的物体放在一个较大的物体后面，较小的那个就会被遮住；
如果你把一个物体放在桌上然后将目光移开，那么除非有人故意移动该物体或者该物体能自行移动，否则当你看回来时，该物体仍将停留在原处。
我们可以举出很多类似的例子。其中，非常关键的一点是：婴儿会发展出自己对世界上的因果关系的洞察力。
例如，当有人推一个物体时，就像图中的女士推着婴儿车，婴儿车的移动并非因为巧合，而是有人推它。

心理学家为此创造了术语“直觉物理学”（intuitive physics）来描述人类对物体及其运转规则所具有的基本知识。当还是孩童的时候，我们还发展出了“直觉生物学”（intuitive biology）的概念，用以区分生命体和非生命体。例如，任何一个小孩都明白，与婴儿车不同，狗能够自主移动或拒绝移动。我们有这样的直觉：狗和人类一样能听能看，它将鼻子贴在地面上是为了嗅某些东西。

由于我们人类是一种典型的社会型物种，从婴儿时期开始我们逐步发展出了直觉心理：感知并预测他人的感受、信念和目标的能力。例如，你能够从图中了解到以下信息：图中的女士想要与她的孩子和狗一起穿过马路；她不认识迎面走来的男士，也不害怕他；她的注意力正集中在手机通话上；她希望同行的车辆能够为她让道，以及当她注意到车辆与她相距太近时，她会感到吃惊和害怕。

预测可能的未来

理解任何情况，其本质是一种能够预测接下来可能会发生什么的能力。
在图的情境下，你预测正在过马路的人会继续朝着他们原来的方向行走；
图中的女士将继续推着婴儿车、牵着狗，同时拿着手机。
你也会预测：这位女士会拉一下狗绳，而那条狗会反抗，并想继续探索那个地方的气味，这位女士会更使劲儿地拉狗绳，然后这条狗会跟在她身后，走到马路上。
如果你正在开车，你就需要为此做好准备！

在一个更基本的层面上，你一定是希望女士的鞋子待在她脚上，头待在身体上，道路还固定在地面上。
你预测那位男士会从婴儿车后面走出来，并且他将会有腿、脚和鞋子，这些会支撑着他站在路上。

简而言之，你拥有心理学家所说的关于世界之重要方面的“心智模型”，

这个模型基于你掌握的物理学和生物学上的事实、因果关系和人类行为的知识。
这些模型表示的是世界是如何运作的，使你能够从心理上模拟相应的情况。
神经科学家还不清楚这种心智模型或运行在其之上的心智模拟，是如何从数十亿相互连接的神经元的活动中产生的。一些著名的心理学家提出：一个人对概念和情境的理解正是通过这些心智模拟来激活自己之前的亲身经历，并想象可能需要采取的行动。

心智模型不仅能够让你预测在特定情况下可能会发生什么，还能让你想象如果特定事件发生将会引发什么。

例如，如果你按车喇叭或从车窗向外大喊“从路上让开！”，这位女士可能会吓一跳，并将注意力转向你；
如果她绊了一下，鞋子掉了，她会弯腰把鞋子穿上；
如果婴儿车里的婴儿开始哭闹，她会看一眼出了什么事情。
想要理解一个情境，其关键在于要能够利用心智模型来想象不同可能的未来。

理解即模拟

心理学家劳伦斯·巴斯劳（Lawrence Barsalou）是“理解即模拟”（understanding as simulation）假说最为知名的支持者之一。在他看来，我们对于我们所遇到的情境的理解包含在我们在潜意识里执行的心智模拟中。此外，巴斯劳提出，这种心智模拟同样构成了我们对于那些我们并未直接参与其中的情境的理解，比如我们看到的、听到的或读到的。巴斯劳写道：“当人们理解一段文本时，他们构建模拟来表征其感知、运动和情感等内容。模拟似乎是意义表达的核心。”
对于像“真相”“存在”“无限”等这类非常抽象的概念，我们是如何理解的呢？巴斯劳和他的同事们几十年来一直主张：即便是最为抽象的概念，我们也是通过对这些概念所发生的具体场景进行心智模拟来理解的。
根据巴斯劳的观点，我们使用对感觉-运动（sensory-motor）状态的重演（即模拟）来进行概念处理，并以此来表征其所属类别，即使是对最抽象的概念也是如此。令人惊讶的是（至少对我来说）：这一假说最具说服力的证据来自对隐喻的认知研究。
最近十几年的研究发现，人们常借助感觉-运动经验来理解具体概念，表明感觉-运动系统与语言系统存在紧密联系。隐喻是借助具体概念描述抽象概念的常见修辞方式，因此，探讨感觉-运动系统在隐喻理解中的作用有助于解决抽象概念形成与理解的科学问题，进一步阐明感觉-运动系统与语言系统的关系。

我们赖以生存的隐喻

读了由语言学家乔治·莱考夫（George Lakoff）和哲学家马克·约翰逊（Mark Johnson）合著的《我们赖以生存的隐喻》（Metaphors We Live By）一书，之后，我对隐喻的理解完全改变了。莱考夫和约翰逊的观点是：不仅仅是我们的日常语言中充斥着我们意识不到的隐喻，我们对基本上所有抽象概念的理解都是通过基于核心物理知识的隐喻来实现的。莱考夫和约翰逊引用了大量的语言示例来证明他们的论点，展示了我们如何用具体的物理概念来概念化诸如时间、爱、悲伤、愤怒和贫穷等抽象概念。
例如，莱考夫和约翰逊指出，我们会使用具体的概念，如金钱，来谈论抽象的概念，如时间。
例如，我们经常会说：你“花费”或“节省”时间；
你经常没有足够的时间来“花费”；
有时你“花费”的时间是“值得的”，而且你已经合理地“使用”了时间；
你可能认识一个在“借用的时间”里活着的人。

类似地，我们还会将诸如快乐和悲伤等情绪状态概念化为物理学中的方向的概念，如“上”和“下”。
例如，我们会说：我可能会“情绪低落”并“陷入沮丧”；
我的心情可能会“一落千丈”；
我的朋友经常让我“提起精神”，或者让我“情绪高涨”。

更进一步说，我们通常使用物理学中温度的概念来对社会交往概念化，
比如，“我受到了热烈的欢迎”“她冷冰冰地凝视着我”“他对我很冷淡”。
这些说法是如此根深蒂固，以至于我们根本没有意识到自己在以隐喻的方式讲话。
莱考夫和约翰逊提出的这些隐喻揭示了我们对概念进行理解的物理基础这一主张，支持了巴斯劳的人们通过构建源自我们核心知识的心智模型的模拟来进行理解的理论。

一组研究人员指出：不管一个人感受到的是身体上的温暖还是社交上的“温暖”，激活的似乎都是大脑的相同区域。
研究人员对一组志愿者进行了接下来的实验。每位被试都由一名实验人员陪同经过一段较短的电梯行程前往心理学实验室。在电梯里，实验人员请被试拿一杯热咖啡或者冰咖啡几秒钟，以方便实验人员记录被试的名字，而被试并不知道这实际上是实验的一部分。进入实验室之后，每位被试需要阅读关于同一个虚构人物的一段简短描述，然后被要求评价该人物某些性格特征。结果表明：在电梯中拿过热咖啡的被试对该人物的评价明显比拿冰咖啡的被试的评价更让人感到温暖。
物理和社交范畴的“温度”之间这一连接的反向似乎也成立。其他研究组的心理学家发现：“温暖”或“寒冷”的社交经历也会导致被试感受到物理层面的温暖或寒冷。

尽管这些实验及其解释在心理学领域仍然存在争议，但其结果可被理解为支持了巴斯劳、莱考夫和约翰逊的观点：我们通过核心物理知识来理解抽象概念。如果物理意义上的“温暖”概念在心理上被激活，例如，通过手持一杯热咖啡，这也会激活更抽象、隐喻层面上的“温暖”概念，就像评价一个人的性格的实验那样，并且反之亦然。

如果我们对概念和情境的理解是通过构建心智模型进行模拟来实现的，那么，也许意识以及我们对自我的全部概念，都来自我们构建并模拟自己的心智模型的能力。我不仅能在心智上模拟打着电话过马路的情境，还能在心智上模拟自己的这种想法，并预测自己接下来可能会想什么，也就是说，我们有一个关于自己心智模型的模型。为模型建构模型，模拟我们的模拟——为什么不可以呢？就像对温暖的物理感知，能够激活对温暖的隐喻感知，并且反之亦然，我们拥有的与物理感觉相关的概念可能会激活关于自我的抽象概念，后者通过神经系统的反馈，产生一种对自我的物理感知，你也可以将这里的“自我”称为意识。这种循环因果关系类似于侯世达所说的意识的“怪圈”：“符号和物理层面相互作用，并颠倒了因果关系，符号似乎拥有了自由意志，并获得了推动粒子运动的自相矛盾的能力。”

抽象与类比，构建和使用我们的心智模型

从心理学角度描述了人类与生俱来的，或在生命早期获得的核心直觉知识，以及这些知识如何成为构建了我们的各种观念的心智模型的基础。构建和使用这些心智模型依赖于两种基本的人类本能：抽象和类比。

抽象是将特定的概念和情境识别为更一般的类别的能力。
从某种形式上来说，抽象是我们所有概念的基础，甚至从最早的婴儿时期就开始了。像是在不同的光照条件、角度、面部表情以及不同的发型等条件下识别出母亲的面庞，这样简单的事情，与识别一种音乐风格，或是做出一个有说服力的法律上的类比，是同样的抽象的壮举。我们所谓的感知、分类、识别、泛化和联想都涉及我们对所经历过的情境进行抽象的行为。

抽象与“做类比”（analogy making）密切相关。侯世达几十年来一直研究抽象和做类比，在一种非常一般的意义上将做类比定义为：对两件事之间共同本质的感知。这一共同的本质可以是一个命名的概念，如“笑脸”“挥手告别”“猫”“巴洛克风格的音乐”，我们将其称为类别；或在短时间创造的难以用语言进行表达的概念，如一个看护者忘记在活动之前或之后接送孩子，或一个并不对公共写作空间中用户创作的内容承担责任的所有者，我们将其称为类比。这些心理现象是同一枚硬币的两面。在某些情况下，诸如“同一枚硬币的两面”的想法是从一个类比起步，但最终以习语的形式融入我们的词汇中，这使得我们更像是将其当作一个类别来对待。
类比在很多时候是我们无意识地做出来的，这种能力是我们抽象能力和概念形成的基础。正如侯世达和他的合著者、心理学家伊曼纽尔·桑德尔（Emmanuel Sander）在《表象与本质》中所阐述的：“没有概念就没有思想，没有类比就没有概念。”

在本章中，我从心理学领域近期的研究中概括了一些观点，这些研究主要是关于人类在面对其所遇到的情境时适当理解和行动所遵循的心理机制。我们拥有的核心知识，有些是与生俱来的，有些是在成长过程中学到的。我们的概念在大脑中被编码为可运行（即模拟）的心智模型，以预测在各种情境下可能发生的事情，或者给定任一我们能想到的变化之后可能会发生什么。我们大脑中的概念，从简单的词语到复杂的情境，都是通过抽象和类比习得的。

我当然不是说抽象和类比涵盖了人类理解的所有组成部分。事实上，很多人已经注意到“理解”和“意义”等术语只是我们用来当作占位符的定义不明的术语，更不用说意识了，因为目前我们还没有用来讨论大脑中究竟发生了什么的准确的语言或理论。人工智能的先驱马文·明斯基这样说道：“尽管近代科学出现了一些思想萌芽，使得‘believe’（相信）、‘know’（知道）、‘mean’（意味着）这样的词语在日常生活中变得很常用，但严格来说，它们的定义似乎太过粗糙，以至于无法支撑强有力的理论……就如同目前的‘self’（自我）或‘understand’（理解）这样的词语对我们而言一样，它们尚处于通往更完善的概念的起步阶段。”明斯基继续指出：“我们对这些概念的混淆，源于传统思想不足以解决这一极度困难的问题……我们现在还处在关于心智的一系列概念的形成期。”

缺乏像人类那样的理解能力的人工智能系统现在正被广泛应用于现实世界中。突然之间，曾经一度仅仅是学术探讨的问题，开始在现实世界中变得愈发重要了。
为了可靠、稳定地完成其工作，
人工智能系统需要在多大程度上拥有像人类那样的理解能力？
或达到多大程度上的近似？
没有人知道答案，但人工智能领域的研究者都认同这样的观点：掌握核心常识以及复杂的抽象和类比能力，是人工智能未来发展不可或缺的重要一环。

《AI 3.0》读书笔记
 《AI 3.0》读书笔记序1
《AI 3.0》读书笔记序2
《AI 3.0》读书笔记序3
《AI 3.0》读书笔记译者序
 《AI 3.0》读书笔记第一部分若想对未来下注，先要厘清人工智能为何仍然无法超越人类智能01
《AI 3.0》读书笔记第一部分若想对未来下注，先要厘清人工智能为何仍然无法超越人类智能02
《AI 3.0》读书笔记第一部分若想对未来下注，先要厘清人工智能为何仍然无法超越人类智能03
《AI 3.0》读书笔记第二部分视觉识别：始终是“看”起来容易“做”起来难 04 何人，何物，何时，何地，为何
 《Ai 3.0》读书笔记第二部分视觉识别：始终是“看”起来容易“做”起来难 05 ConvNets和ImageNet，现代人工智能的基石
 《AI 3.0》读书笔记第二部分视觉识别：始终是“看”起来容易“做”起来难 06　难以避免的长尾效应
 《AI 3.0》读书笔记第二部分视觉识别：始终是“看”起来容易“做”起来难 07 确保价值观一致，构建值得信赖、有道德的人工智能
 《AI 3.0》第三部分游戏与推理：开发具有更接近人类水平的学习和推理能力的机器
 《AI 3.0》第三部分 08 强化学习，最重要的是学会给机器人奖励
 《AI 3.0》第三部分 09 学会玩游戏，智能究竟从何而来从
 《AI 3.0》第三部分 10 游戏只是手段，通用人工智能才是目标
 《AI 3.0》第四部分自然语言：让计算机理解它所“阅读”的内容
 《AI 3.0》第四部分 11 词语，以及与它一同出现的词
 《AI 3.0》第四部分 12 机器翻译，仍然不能从人类理解的角度来理解图像与文字
 《AI 3.0》第四部分《AI 3.0》第四部分 13 虚拟助理——随便问我任何事情
 《AI 3.0》第五部分常识——人工智能打破意义障碍的关键

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345