昨晚,锤子科技老罗用 Big bang 爆破「南京市长江大桥」等歧义语句引爆全场,作为一个完全的外行人,我对其中所谓「自然语言处理」也有些想法。毕竟,语言不是专利,任何使用的人都应该有发言权。
其实我要说的也不多,就有一个疑问:要是哪天南京就出了个市长叫江大桥呢?我不是锤子用户,也并不知道 Big Bang 有没有修改被炸词汇的功能(演示上看像是没有),如果没有,惊喜之外是不是也抹杀了部分中文语言的创造性。
我自己的感觉是,在处理中文断句歧义的时候,并没有一套所谓自然语言的通用法则,容错性更高的处理方式应该是大数据检索 + 语义结构识别。上述文字,单纯从语义文字上识别确实至少有两个结果:「南京」「市长」「江大桥」与「南京市」「长江大桥」。使用大数据检索的方式,便可以得出将后者作为推荐答案的结果。而我会希望获得一项改进,将推荐答案作为默认答案,同时提供备选答案及便捷的可修改方式。
断句歧义有时候更多的是使用者没有采用一般形式或有意为之,前者基于一种主流的环境背景,而环境是会改变的,比如江大桥当了市长,长江大桥被拆除废名;后者,怎么说……我觉得这也是中文语言的一种魅力。