如果问大家现在属于什么时代?可能大家都会说,属于大数据时代。现在全球大数据行业的产值一年超过2000亿,各种大数据应用层出不穷。
那么大数据都有哪些应用场景呢?吴军老师在《信息史纲》里提到,其中一类场景就是解决人工智能问题。
解决人工智能问题:把过去需要人工推理的过程变成基于大数据的计算问题。,例如语音识别。语音识别的历史跟计算机的历史一样长,但进展一直不好,语音识别率很低。甚至在60年代初,有人认为语音识别和治愈癌症、登月、水变油一样,近乎不可能。
后来IBM的贾里尼克实现了突破。原因是在贾里尼克之前,人们觉得识别语音是一个智力活动,采用模拟人类思维的语义识别法:也就是将听到的一串语音信号变成音节,然后组成字和词,再联系上下文理解它们的意思,排除可能同音字的歧义,最后得到它的意思。采用语义分析法,只能识别十几个单词的短句,而且错误率高达30%以上。
贾里尼克采用的是信息论法。他认为:当说话人讲话时,这个人是用语言和文字将他的想法编码,通过空气或者电话线传播,那么在通信中有一套对应的信道编码理论。那么在接收方那里,他要再做解码的工作,把空气中的声波变回到语言文字,再通过对语言文字的解码,得到含义。
因此,贾里尼克就用通信的编解码模型,以及有噪音的信道传输模型,构建了语音识别的模型。但是这些模型里面有很多参数需要计算出来,这就要用到大量的数据,于是,贾里尼克就把上述问题又变成了数据处理的问题了。
贾里尼克的团队聚集了优秀的数学家和数学很好的理论物理学家。短短几年时间,他们就将语音识别的规模扩大到22000词,错误率降低到10%左右。这是一个质的飞跃,从此数据驱动的方法在人工智能领域站住了脚。