“拨开迷雾看人工智能”-3分钟看懂自然语言处理

上一期,我们为你介绍了语音识别是人机交互的入口,这一期我们介绍什么是自然语言处理,以及自然语言处理的难点。

《圣经》里有一个故事讲巴比伦人想建造一座塔直通天堂。建塔的人都说着同一种语言,心意相通、齐心协力。上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作“巴别塔”,而“巴别”的意思就是“分歧”。

虽然巴别塔没有建成,但让全世界拥有相通的语言一直是萦绕在人们心中的梦想。但人工智能技术实现了用机器翻译不同的语言,从最初只能翻译单词到现在可以整句或通篇翻译,近几年用语音都可以直接进行翻译。有了它你可以行走到世界上任何一个国家,即使看不懂文字,听不懂语言,也能够借助机器翻译与他人进行交流和沟通,不必再为相互不能理解而困扰。

然而,机器翻译的核心,就是自然语言处理(Natural Language Processing),简称:NLP

什么是自然理?

简单地说,自然语言处理就是用人工智能来处理、理解以及运用人类语言。它体现了真正意义上的“人工智能”,百度机器学习专家余凯说过“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”,也就是说只有当计算机具备了处理自然语言的能力时,才算实现了真正的智能

自然语言处理技术在生活中应用广泛,例如机器翻译、手写体和印刷体字符识别、语音识别后实现文字转换、信息检索、抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等。它们分别应用了自然语言处理当中的语法分析、语义分析、篇章理解等技术,是人工智能界最前沿的研究领域。时至今日AI在这些技术领域的发展已经把识别准确率从70%提高到了90%以上,但只有当准确率提高到99%及以上时,才能被认定为自然语言处理的技术达到人类水平,这仍然是巨大的困难和挑战

自然理存在哪些主要困难?

自然语言处理的困难关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。由于歧义的存在给自然语言处理带来两个主要困难。

首先,当语言中充满了大量的歧义,分词难度很大,同一种语言形式可能具有多种含义。特别是在处理中文单词的过程中,由于中文词与词之间缺少天然的分隔符,因此文字处理比英文等西方语言多一步确定词边界的工序,即“中文自动分词”任务。通俗地说就是要由计算机在词与词之间自动加上分隔符,从而将中文文本切分为独立的单词。例如 “昨天有沙尘暴”这句话带有分隔符的切分文本是“昨天|有|沙尘暴”。自动分词处于中文自然语言处理的底层,意味着它是理解语言的第一道工序,但正确的单词切分又需要取决于对文本语义的正确理解。这形成了一个“鸡生蛋、蛋生鸡”的问题,成为自然语言处理的第一条拦路虎。

除了在单个词级别分词和理解存在难度外,在短语和句子级别也容易存在歧义。例如 “出口冰箱”可以理解为动宾关系(从国内出口了一批冰箱),也可以理解为偏正关系(从国内出口的冰箱);又如在句子级别,“做化疗的是她的妈妈”可以理解为她妈妈生病了需要做化疗,也可以理解为她妈妈是医生,帮别人做化疗。

其次,消除歧义所需要的知识在获取、表达以及运用上存在困难。由于语言处理的复杂性,合适的语言处理方法和模型难以设计。

在试图理解一句话的时候,即使不存在歧义问题,我们也往往需要考虑上下文的影响。所谓的“上下文”指的是当前所说这句话所处的语言环境,包括说话人所处的环境,或者是这句话的前几句话或者后几句话等。以“小A打了小B,因此我惩罚了他”为例。在其中的第二句话中的“他”是指代“小A”还是“小B”呢?要正确理解这句话,我们就要理解上句话“小A打了小B”意味着“小A”做得不对,因此第二句中的“他”应当指代的是“小A”。由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文影响问题是自然语言处理中的主要困难之一。

此外,正确理解人类语言还要有足够的背景知识,特别是对于成语和歇后语的理解。比如在英语中“The spirit is willing but the flesh is weak.”是一句成语,意思是“心有余而力不足”。但是曾经某个机器翻译系统将这句英文翻译到俄语,然后再翻译回英语的时候,却变成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是浓的,但肉却腐烂了”。导致翻译偏差的根本问题,在于机器翻译系统对于英语成语并无了解,仅仅是从字面上进行翻译,结果失之毫厘,谬之千里。

小结:

自然语言处理就是用人工智能来处理、理解以及运用人类语言。它在生活中具有广泛的应用,今天在一些领域(比如机器翻译)其处理准确率已经超过90%,但要达到人类水平,仍然存在较大难度。

消除歧义是目前自然语言处理的最大困难,它的根源是人类语言的复杂性和语言描述的外部世界的复杂性。人类语言承担着人类表达情感、交流思想、传播知识等重要功能,因此需要具备强大的灵活性和表达能力,而理解语言所需要的知识又是无止境的。那么目前人们是如何尝试进行自然语言处理的呢?

预告:

下一篇,我们将结合2017年自然语言处理的最新发展趋势来介绍对抗神经网络——Gans。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容

  • References: 《speech and language processing 》2nd & 3rd 《统...
    艺术叔阅读 7,477评论 1 8
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,148评论 1 25
  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 10,189评论 1 35
  • 青春是一首唱不完的歌 有人问我为什么一直在怀念过去?其实,我并没有对过去恋恋不忘,只是觉得自己脑...
    六月酱阅读 300评论 0 4
  • 今天看到一篇文章,来自简书 评论尸《大四狗如果找不到工作,也创不了业》 文章写的很有道理,从各个方面写了刚刚毕业的...
    mmmilo阅读 202评论 0 1