前段时间看到一条新闻,说的是谷歌的机器翻译取得了颠覆性的进展,据说,它的机器翻译的准确度已经可以和人工翻译媲美了,这也意味着人工智能的翻译和人工翻译这二者的水平已经相当接近了。
可能很多朋友没有看到这条新闻,也可能一些朋友看到这条新闻的对它一掠而过。也许是我个人的原因,我对这条新闻特别的注意,因为我私下对此有一个尺度——机器翻译的成熟度,其实就标志着人工智能的成熟度。
我记得大概是一年以前,我和凯文·凯利——也就是我们通常说的KK,在优酷做对话的时候,我向他问到过这个问题。我问:“我们现在的工作当中,马上面临失业的工作有哪些?”由于当时现场有同声传译的人,他说,也许做同声传译的人将加入最早失业的队伍里去。
当时我听了以后非常震惊。我一直非常敬佩做同声传译的人,他们能够完全不假思索的将一种语言从耳朵里听进去,再将另一种语言从嘴里说出来。这样一种技能,我觉得是一种挑战人语言能力和智力的工作,而KK竟然说他们是最早会失业的人群。
KK这样认为的理由很简单。翻译技能是一种通过不断地积累、修正、试错,最后逐渐完善的一种工作,而今天的计算机已经远不是单机计算的方式,现在的计算机是是网络计算的,大量信息、大量知识每时每刻汇入到云端,将每一个节点上获得的认知混入到共享的云里。这个时候人类的智慧、人类的知识、人类的智能就会形成一种类似于“拔一毛而利天下”的一种功能。
我们每一个人的聪明过去都只属于我们自己,很少每时每刻把这种智能混入到一个人类共有的大脑当中。今天借助于云端的计算,我们不自觉地将我们每个人通过学习获得的认知都可以混入到人类共有的大脑里。而且汇聚的知识的数量庞大,并随着数量的数据的增大而形成一种知识的涌现。
当单个节点的知识、个体的知识不断的汇入到人类共有的大脑的时候,一方面数据每时每刻都在增加,而且数据的增加符合梅特卡夫定律——就是说当汇聚的量越大的时候,那些节点性的知识、碎片性的知识以一种我们不知道的方式化合起来,形成一种全新的知识。
这样一种形成方式我们把它称之为“涌现”,就是低智能、低能量的个体汇聚起来形成一种高智能的、高能量的超级有机体。比如蚂蚁,它是一种低智能的动物,但是很多的蚂蚁汇聚到一起,他们会形成一种远超于他们个体智能的集体智能,包括蜜蜂、白蚁、蝙蝠都有这种由于巨量的汇聚而形成的涌现。
所以,将来人类知识的增长、知识的进化一旦不是由单个个体来承担,而是人类所有个体都汇聚成一个整体的时候,这种知识的进化速度比以前任何物种的进化速度都要快得多。所以他认定,将来,在很快时间内——五年之内,机器翻译就有可能替代人工翻译。
刚刚说到的这条新闻似乎让我感受到,人工智能对于人的智能的挑战已经渐渐接近人的脚步声。安迪.格鲁夫说,很多真正具有挑战性的东西、坏消息都是踏着猫步而来的。猫走路是没有声音的,除非听觉极其敏感的人——比如说盲人能听到猫过来的声音,我们普通的人是感受不到这种声音的。
事实上,在很多产业里,形成颠覆性创新的那些技术往往都是在人的眼皮子底下在进化,而它的最初形态看上去是非常简陋的。比如说数码相机刚刚出来的时候甚至只有10万像素。这个行业用了很长的时间把10万像素提高到100万像素——我还真见过100万像素的数码相机,大家可以想象100万像素的数码相机拍出来的清晰度能有多高。
现在,我能在电脑里找到的像素最低的照片是200万像素的诺基亚手机拍出来的。在今天看来,这样的照片如果不是因为有历史价值,我真的想马上把它删掉,质量非常低。从10万像素到100万像素花了很长时间,从100万像素到200万像素还是经历了很慢的进程,200万像素到300万像素的速度就渐渐加快。
当数码相机到500万像素的时候,它已经让人感受到,它不再是一个玩具了,在某种程度上它是可以派上正当用场的。当我们意识到它已经开始成熟的时候,它飞快的从500万像素成长到800万像素,从800万像素到1000万、1500万,现在很多手机的像素都达到1700万,甚至超过2000万。记得当我看到那种1500万单反相机拍出的照片的时候,我觉得已经是到极致了,但是今天我们看来都是稀松平常的。
所以很多行业、很多产品,当他们刚刚问世的时候,都是非常幼稚、非常简陋,让你觉得他就跟玩具一样,使用这样的工具如同是儿戏,但是技术就是在我们不以为然当中以一种指数级的速度在往前发展。一旦技术让我们刮目相看,让人们觉得已经很成熟甚至近乎完美的时候,不仅仅表示现有的产品成熟,而且表明它正在以更高的速度往前发展。
所以2016年满世界都在谈论人工智能,但是人工智能至今还没有拿出让人觉得肃然起敬、让人刮目相看的产品,我们很多人对其听之任之,觉得它要真的成气候是猴年马月的事情。但是,成熟技术到来的方式,和我们有的时候在一个车站等车等了半个小时车还不来的时候是非常相似的——我们等得非常疲惫,干脆到别的地方散散步、溜达溜达再回来的时候,发现车已经早就走了。
为什么谷歌机器翻译的成就特别值得注意?这是因为在人工智能领域有几个层级,而机器翻译已经是在最深的层级上了。一般来说,所谓智能首先在识别,识别各种各样的信号,最初级的识别是语音识别,所以我们现在很多人已经开始在用一些语音输入的软件,有的时候你觉得还可以用,有的时候会让你失望得无言以对。
有一次我尝试用语音输入来写一篇文章,后来发现不行,校改需要的时间往往比我从一开始打字需要的时间还要长,因为要仔细的看那些错误。刚开始我很自然的认为是因为我的发音不标准导致语音识别错误,后来我做了一个实验,我用中央人民广播电台的播音员读的话对着手机,结果还是一大堆错误,这显然不仅仅是语音不标准的问题。
比语音识别更难的是图像识别。今年6月份,我到硅谷的时候去参观吴韧博士的新大脑公司。我们进去的时候门口有摄像头,进去的时候已经被录像了,但是那时候不知道。后来我到了他的办公室,他的助理问我们要名片,然后在电脑里输入了什么东西,把电脑转过来问:这是您的照片吧?
我一看,说:“是。”那是他根据名字在网上搜到一张差不多是十年前的照片。然后他照片马上输入到库里,不到一分钟,他们就在海量的录像库里找到我刚才进来的那段录像,问:“这是您吧?” 我说这是我,这种人脸识别要比语音识别难度更大。
但是更难的是语义识别。每一种语言识别都有它的模糊性,它的每一个词都有其双关性,对语境的强依赖等等。以汉语为例,在老舍的《茶馆》里不是有那么一段话吗——有两个坏家伙来敲诈王掌柜的时候有一段很著名的对话。
“王掌柜的,您那天说的那点意思,什么时候意思意思?”
“您说的那点意思得多少意思啊?”
“嗨,王掌柜您是明白人,您还能把那点意思搞得没意思吗?”
如果这段话要让电脑来识别真是太难了,如果想让外国人刚学汉语的时候说这一段话,会让他抓狂。
再比如野蛮女友对她的男友说的第一句话——“我现在出发了,你要是到了你就等着。”第二句是——“我要是到了你还没到,你就等着!”第三句话是——“你要是到了你不等着,你就等着啊!”
这三句话要是让电脑来识别,真的会抓狂。要是有一天电脑不仅能明白刚才第一段里的各种每一个“意思”的意思,明白第二段对话的每一个“等着”的真实含义,那人工智能真的是到了相当成熟的地步。
而今天的谷歌翻译取得的这个成果还只是阶段性的,研究人员让精通两门语言的人——比如说让母语是西班牙语也精通英语的人,让他来评判机器将两种语言互译的时候是否准确。与此同时,再找精通两种语言的人来进行翻译,最后按对照的结果按6分算,机器的得分是5.53分,人的得分是5.55分,得分已经是相当接近了。
但是大家要注意,人的进化速度、人的智力增长速度是很慢的,甚至在很多时候是在逐渐退化的。比如说你25岁的时候脑子很好用,到30岁的时候脑子就不一定好用,到40、50岁就逐渐衰退了。
而电脑由于处于云计算的时代、一个大数据的时代,我们最聪明的时刻都会汇聚到云里去,这个云相当于人类共有的大脑。人的这些聪明已经被汇聚到里面,即使这个人得了阿兹海默综合征,但是你的聪明已经被汇聚到人类共有的大脑。
关键是这些碎片认知以我们所不知道的方式迅速的汇集,就像在物理世界中,水蒸气蒸发到空中变成云,一朵朵小云又变成更大的云,更大的云和更大的云之间又会汇聚在一起,这个过程是非常恐怖的。
换句话说,机器智力进化的速度是远远超乎人的。可能在几年后的某一天,机器翻译突然就成熟了。原来我们出国,不懂外语是最让我们自卑,最让我们畏手畏脚的,而以后出国时候的第一焦虑就不存在了。在这种情况下,人类的文明将会出现一种什么样的结果,我们今天还不可预测。
当语言的障碍被超越,甚至机器将比人的翻译还要准确,不仅能解读你的语言,甚至根据每个人的性格、语言习惯,过去说话和写作方式,像侦探一样解读你话里背后的意思,然后以一种你自己都感到心惊胆战的方式把它解读出来之后,让我们感到“懵圈”的将不仅仅是翻译们要失业的问题,它真的会带来我们今天还不能清晰想象的一种文明的巨变,真正称得上会是一个数字化文艺复兴时代。