前面介绍了实体识别和关系抽取,之前在学习的时候是基于公司的实习项目在学,只知道这两者是为抽取结构化数据做辅助的,看着公司的人一步步把图谱建立起来,很厉害,于是,后面就准备自己花点时间鼓捣鼓捣,想建一个知识图谱,查了很多资料,也花钱买了不少视频课,这里推荐入门的还是小象学院王昊奋老师的,如果你是小白,开始还好,后面的要求可能有点高,没关系,知道个大概意思就行啦,其他也有些人开了课,冒充大牛,拿别人开源框架讲课赚钱不说,还建了不少群宣传他的课,冒充人生导师,其实一点算法都不懂,这里我就不方便说了,在自己的博客吐槽下就行。
言归正传。学知识图谱需要学些什么内容呢?
这里我就我调研到的一些东西做一些分享
上面这个图列出了知识图谱的部分场景需求和需要学习的知识,现在很多开源的图谱都是基于RDF、OWL这些资源描述框架做的,比如维基百科等等,所以对于新手来说上来接触这些东西真的很懵,实际上在很多特定的场景的知识图谱都没用这些技术做,我也请教过一些大公司的人,问了下他们是基于啥做的(这里不方便透露哈),问了些,好多都是基于neo4j图数据库做的。所以,对于新手来说如果是用图数据库,RDF、OWL这些东西其实可以暂时略过哈!
所以接下来我来讲一下构建图谱的技术路线,说的很专业,有些人把这包装的很高大上,无非就是两个东西,爬虫+数据库,如果你要进行可视化展示,那就还需要一些前端的知识。
这上面的两个图,第一个就是基于RDF存储的,第二个就是基于图数据库存储的。可以看出Neo4j的使用还是比较受欢迎的,Neo4j我个人上手虽然花了点时间,但实际上还是个工程问题,所以还是比较容易的,这里先展示下我自己做的一个基于中财网的所有上市公司的知识图谱,内容虽然不是很专业,但在工程上还是没啥毛病的哈!
这里先贴一张我的最终效果图!
这里只能展开部分,后面我会详细记录整个实验过程并开源我的代码!
为了知识的完成性,我先简单介绍一下知识图谱!
上面这些都是我自己做过的PPT,基本上看图就很直观了,这里就不讲废话了,这里只是对知识图谱做一个概述,后面开始进行我的金融图谱项目实战介绍!