上周末继续玩了点word2vec,因为之前试的结果是在中文文本上效果相当好,而在英文文本下效果很普通。我考虑了一下可能的原因。
一是汉语对语序的依赖度更大,且没有变格变位。
二是文本——我总觉得wikipedia文本并不是一个很好的corpus,它的语言缺乏足够的变化,也不够生动——对比而言,我玩了几次的中文文本都是文学作品(一次是演义公案小说,一次是金古梁)。
所以我这次抓了543本英文文学作品(随便从我手边的一个什么1600本英文小说包里捞出来的,里面范围很广从阿婆到莎士比亚都有),共5.25E7单词,一下子神清气爽效果好多了!
不但是如此,倘若把7本哈利波特的文本挂在wikipedia文本后面,都会对结果有很大的帮助。
这周等我试试德语,文本应当可以从古腾堡整。德语估计更难搞,因为对变格变位的依赖更大,而可分动词更是恶意的存在——而且有些复合词简直该做下分词。
最难搞的估计是土鸡语这款往词上拼命堆后缀的语言,感觉几乎不能用这种方法来建立向量——除非做个分词把后缀拆出来——不过也可以试一试,只是文本不好找。