论文链接:http://nlp.csai.tsinghua.edu.cn/~xrb/publications/JCRD-16_knowledge.pdf
过去人类花费大量精力将人类知识组织成结构化的知识系统构建知识库。知识库在智能搜索、智能问答、个性化推荐等任务中起到重要作用。
知识库描述现实世界中实体之间的关系,通常以网络的形式组织起来。网络中的节点代表实体(人名、地名、概念等),而每条连边代表实体间的关系。大部分知识可以用三元组(实体1,关系,实体2)来表示,对应着知识库网络中的一条连边及其连接的2个实体。这是知识库的通用表示方式,然而,基于网络形式的知识表示面临着诸多挑战性难题,主要包括下面2个方面:
1)计算效率问题。基于网络表示的知识库在计算机中是以图的形式存储的,当需要计算实体间的语义或推理关系时需要采用图算法来实现,然而图算法计算复杂度高、可扩展性差,当知识库达到一定规模时难以满足实时计算的需求。
2)数据稀疏问题。对于长尾部分的罕见实体,只有极少的知识或路径设计它们,对这些实体的语义或推理关系准确率极低。
近年来以深度学习为代表的表示学习技术异军突起,在众多领域获得广泛关注。知识表示学习可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题。
此论文介绍知识表示最新进展,总结该技术面临的主要挑战和可能的解决方案,并展望该技术未来发展方向与前景。
1 知识表示学习简介
1.1 表示学习的基本概念
表示学习的目标是,通过机器学习将研究对象的语义信息表示为稠密低维实值向量,在该向量空间中2个对象距离越近则说明语义相似度越高。本文用黑斜体表示研究对象所对应的向量。
在表示学习之外还有更简单的独热表示方案,该方案也将研究对象表示为向量,但该向量只有某一维度非零其它维度上均为0.独热表示的维度高,忽略对象的相似度,容易受到数据稀疏的影响。
与独热表示相比,表示学习的向量维度较低,有助于提高计算效率,同时能够充分利用对象间的语义信息,从而有效缓解数据稀疏的问题。
1.2 表示学习的理论基础
表示学习得到的低维向量表示是一种分布式表示。孤立地看向量的每一维都没有明确的含义,而综合看各维度行程的一个向量,则能够表示对象的语义信息。这种表示方式是受人脑的工作机制启发而来的。向量的每一维度对应人脑中的一个神经元,而向量中的值对应神经元的激活或抑制状态。
1.3 知识表示学习的典型应用
通过将实体或关系投影到低维向量空间,我们能够实现对实体关系的语义信息的表示,可以高效地计算实体、关系及其之间的复杂语义关联。
分布式表示有以下典型应用:
1)相似度计算。
2)知识图谱补全。
3)其它应用,如关系抽取、自动问答、实体链指等任务。
1.4 知识表示学习的主要优点
1)显著提升计算效率。
2)有效缓解数据稀疏。
3)实现异质信息融合,将来源不同的信息融合为整体。
综上,知识表示对于知识库的构建、推理和应用具有重要意义,值得受到关注、深入研究。