wordnet是以同义词集合(synset)作为基本建构单位进行组织的,即每个同义词集是网络里的一个结点,每个同义词集合都代表一个基本的语义概念并且这些集合之前由各种关系连接。
词语类型
共包含4种类型的词汇,名词,动词,形容词和副词,各自被组织成一个同义词的网络。
关系类型(详可见参考文献5)
上下位关系(动词、名词)、蕴含关系(动词)、相似关系(名词)、成员部分关系(名词)、物质部分关系(名词)、部件部分关系(名词)、致使关系(动词)、相关动词关系(动词)、反义关系(形容词)、近义关系(形容词)、关系性形容词(形容词)、相关关系(形容词)、属性关系(形容词)、反义关系
(副词)、衍生关系(副词)
注:
名词有一棵上下位词关系树,根节点为entity,动词有559棵上下位词关系树。
属性关系(形容词):如heavy是weight(名词)的属性
衍生关系(副词):大部分副词都从形容词衍生得到,如happily衍生于happy
wordnet官网的relation部分介绍了wordnet中的主要关系
python wordnet
python的nltk包提供了读wordnet的接口
参考资料
- wordnet官网https://wordnet.princeton.edu/
- python wordnet使用方法https://blog.csdn.net/King_John/article/details/80252594
- 知乎的一篇介绍https://zhuanlan.zhihu.com/p/26461511
- nltk wordnet文档http://www.nltk.org/howto/wordnet.html
- wordnet关系https://wenku.baidu.com/view/18c6c532b90d6c85ec3ac6de.html#