上一章,采用CRF++我们可以将一些时间内容替换为T,地点信息替换为PL,人物信息替换为P,金钱替换为M。
比如,我们说:
下午六点以后的英语可还有吗?
上一个月的课是不是收六千快?
你们的英语课程好有趣啊!
就可以替换成
T以后的C还有吗?
上T的课是不是收M?
除此以外,我们还要注意一种情况,就是同义词情况。
我们可以自己规定一套标准词。
比如,啥和什么是同义词
咋和怎么是同义词
买和购买是同义词。
如果我们将所有的同义词都在预处理阶段化为标准词可以很大程度提高分类成功率。
比如,我们说:
我想试听一节课,咋操作?需不需要报名?
就可以替换为我想试听一节课,怎么操作?需不需要报名?
提高班是个啥玩意,咋弄的?
就可以替换为提高班是个什么玩意,怎么做的?
具体的实现也很多种方法:
可以直接调用现有的同义词典库接口,也可以在自己的库里,通过w2c将同义词替换。
将这一节和上一节总结下就是,意图识别的第一步,我们需要事先清洗数据。
我想报名听一节英语提高班的课,咋弄,一个月收多少,500?
就可以翻译为:
我想报名听一节C提高班的课,怎么弄,T收多少,M?