FOAF文件的清洗、检索、绘图

信息系统前沿课--范老师授课

第二次作业

一、重新使用Markdown

熟悉语法,了解Markdown的用法,选择在线编辑工具简书进行编辑。

二、回顾xml、rdf、Foaf

1、xml语言

xml语言与HTML语言既相识有不同,在我的理解看来HTML语言更加注重的是简洁、规范化的网络设计语言,用来显示网页就好。xml语言我认为其复杂性是高于HTML语言的,设计其的主要作用应该是着重于对于其要表现的内容的数据表示。以后的可读性、迁移性、更新的难度应该要低一些。

2、rdf资源描述框架

我觉得就是结构化的xml框架,能够描述xml文件中的各种数据区分数据与元数据。

3、Foaf

foaf文件是一种 XML/RDF 词汇表,通过URL来找朋友,构建关联数据,然后形成一种人与人之间相互联系的社交网络的一种小工具。

三、清洗数据

项目要求是清洗整理班级同学FOAF文件,使其符合RDF数据规范和关联数据发布原则,首先我根据要求找不到FOAF清洗,RDF规范检查的工具。所以我先退而求其次选择了xml检查工具,通过DTD的w3c在线检查工具检查并没有发现时什么问题。我发现就文件是否正确的角度来说中英文并没有检测出什么不同的地方。

image.png

那么问题来了,范老师究竟是想要我们做什么样的数据清洗呢?我决定进一步的探索,我选择了网上推荐的一款开源编辑软件editix xml editor

image.png

安装后,新建工程并开始使用
通过检测全部的文件我试图发现全班同学的rdf是否有问题

image.png

结果不出所料


那么我想这里单单从语法、从用法的角度是没有必要清洗foaf数据的必要了,那么问题来了,我们该怎么做?我先分析了同学们的foaf文件
发现有几点不同

  • 1、有的同学使用中文字符(其中中文字符在editxml中存在乱码现象----怀疑应该改成拼音或者英文表达)


    image.png
  • 2、有的同学认识的人数不同

  • 3、具体的在<foaf:knows>认识的人的标签下全部的同学都有
    <foaf:name>范炜</foaf:name>
    <foaf:mbox_sha1sum>762ec4260f2e1f25685e918a2f8adf9da6712be0</foaf:mbox_sha1sum>两个标签但是并不是所有的都有


    image.png

    标签。去foaf网站查找后其实这本是

image.png

针对以上的几点不同是我们需要优先考虑的清洗的部分。
但是我发现还是没有什么问题,所以我决定不要信任软件的全部检查,一个个查看同学的foaf文件

结果:软件真是不能相信的

image.png
image.png

有的是少了person(06号)
学号尾号是17的同学少了person

image.png

尾号为18的同学删除qq号后面数字后正常
22号也是相同的问题
经过长时间认真的筛查后,清洗foaf的工作圆满的完成了。

四、将FOAF文件存入RDF TripleStore

下载apache jena .zip解压
然后下载fusiki

image.png

解压后打卡cmd

image.png
image.png

打开localhost:3030,然后进行上传工作。


image.png
image.png

然而在上传的时候出现了很多的错误。为什么呢,出现编码问题
经过仔细的排查我发现有两个解决途径:
1、将中文全部表示为英文标识
2、通过notepad++将编码格式改变


image.png

但是增加这一行后没有解决问题
通过软件更改编码模式
最后我通过更改编码格式来解决这个额问题

image.png

都上传成功了
点击edit

image.png

点击info查看信息

五、使用SPARQL语法进行简单查询

SPARQL是为rdf开发的一种查询语言和数据获取协议,反正就把它当作关系型数据库的sql语言进行nosql数据库的查询。
进行最简单的3元组查询

image.png

调整limit可以改变查询获得的数量
调整offset可以跳过开始的条数
并且通过实验我发现大小写在sparql中都是可以的

查询个人

image.png
image.png

在我看来这个data文件形成了一个大表,把所有foaf文件链接起来

image.png

接下来查询失败


查询名字(宾语部分)

image.png

六、补充相关数据,建立数据关联。

这里我查询了一下并没有具体的做法。
1、创建新的节点
2、通过D2R服务器在语义Web上发布关系数据库的工具

七、建立可视化关系图

image.png
image.png

然而下载失败
使用另外一个软件


image.png

再次更换技术路线使用progege


image.png

在Protege中应该是不能编辑OWL代码的,但可以生成或导出OWL、RDF代码。如果想直接编辑OWL代码,然后在针对这种可视化的语言进行操作。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容