自然语言处理从规则到统计的过渡花了15年时间。为什么这场争议持续了15年?
1. 一种新的研究方法的成熟需要很多年。
- 20世纪70年代,基于统计的方法的核心模型是通信系统加隐含马尔可夫模型。这个系统的输入和输出都是一维得得符号序列,而且保持原有的次序。
- 1988年,IBM的Peter Brown等人提出了基于统计的机器翻译方法,框架是对的,但是效果很差,因为当时既没有足够的统计数据,也没有足够强大的模型来解决不同语言语序颠倒的问题。
2. 用基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。
- 钱钟书在《围城》中讲,老科学家可以理解成“老的科学家”或者“老科学的家”两种。后者的年纪不算老,但是已经落伍,大家必须耐心等他们退休让出位子。
基于统计的自然语言处理方法,在数学模型上和通信是相通的。
通信模型
信息(信息源) -> 编码 -> 信息(信道) -> 解码 -> 信息(接收方)