复杂网络作业记录

目的:以Wiki vote投票网络等真实合作网络数据集、随机网络和小世界网络为例,学习网络的基本分析方法。

ok虽然咱理论不太懂,但是用API还是会的。先看看prepare

实验准备.可选SNAP、Networkx两种分析工具中任一种。如果使用python,请先安装。

(1)安装SNAP网络分析工具。推荐使用Snap.py for Python,也可以使用SNAP for C++。软件下载地址分别为:

Snap download(available from http://snap.stanford.edu/snap/download.html)

(2)Networkx网络分析工具,Python。基本使用方法可参见Networkx的在线手册:https://networkx.github.io/documentation/stable/index.html

这里建议,都不会的话就直接用Networkx吧。我先用的SNAP,最后才发现后续的gml格式数据集不能读取,还得查了Networkx用法后写了gml转txt的代码。

环境安装都比较简单,pip能解决一切问题。

在这里先把我用到的参考链接都一起附上:

(SNAP 常用方法)https://www.freesion.com/article/6914462644/

(CS224W 图神经网络 学习笔记(四)SNAP.PY: SNAP FOR PYTHON)https://www.freesion.com/article/7647792791/

(CS224W作业1)https://www.freesion.com/article/8186637191/(这玩意基本就是我第三题答案)

(SNAP学习笔记)https://blog.csdn.net/juyuyh/article/details/103947329?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-7.channel_param

(十分钟学会graphviz画图)https://www.jianshu.com/p/6d9bbbbf38b1

!!主要参考资料:(snap使用指南.pdf)https://github.com/Mryangkaitong/snap.py/blob/master/snap%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.pdf

(官方API)http://snap.stanford.edu/snappy/doc/reference/index-ref.html

(gml转txt)https://blog.csdn.net/qq_36940806/article/details/103787750




1. Wikipedia vote网络的基本分析:数据集下载地址:http://snap.stanford.edu/data/wiki-Vote.html 使用分析工具加载Wikipedia voting 网络。该网络为有向图。节点集合V,边集E,边(a, b)表示用户a投票给用户b。计算并打印如下统计结果:

emmm查看了一下API发现,只有按度查询节点数量的功能。那就用最基本的思想:一个有/无向图,节点出/入度数<=节点总数(没自环就严格小于了)。接着只要全部遍历就可以了。节点总数这种信息在第一次printInfo就能看到。那就简单了


把info和print整理一下,就是结果了




2. StackOverow 网络分析下载StackOverow network stackoverflow-Java.txt.gz: 下载地址:http://snap.stanford.edu/class/cs224w-data/hw0/stackoverflow-Java.txt.gz. 数据集。该网络是有向网络,边 (a, b) 表示网络中a采纳了b给出的java相关问题的答案。给出下面的分析结果。

这道题也没有难度,也就是调API。最后也只需要按value逆序排序切片取一下前三的id就可以了




3. 随机图、小世界网络和真实网络的度分布

(1)ER图:生成n=5242个节点以及m=14484条边的随机图。可以自己写代码,也可以使用SNAP或Networkx函数。

(2)SW随机网络,从n=5242个节点的环形网络开始,加上节点连成圆圈,每个节点连接其直接的两个邻居(例,节点399连接398和400),此时共有5242条边。接下来,连接每个节点到其邻居的邻居(例,节点399连接397和401),这又会多出5242条边。最后随机选择未连接的4000对节点,在他们之间增加连边。此时一共有5242*2+4000=14484条边。可以自己写代码,可以调用SNAP或Networkx函数。

(3)科学家合作网络:下载无向网络http://snap.stanford.edu/data/ca-GrQc.txt.gz. 该数据集是arXiv库中广义相对论和量子宇宙方面的论文作者之间的关系。两个作者如果有共同合作论文,则二者之间有边向量。有些边在数据集中可能出现两次,去掉重边和自环后,共有5242个节点和14484条边。(注意,当使用SNAP的LoadEdgeList函数时,重边会自动忽略,但需删除自环的边)。 问题:在对数坐标系下,画出三个网络中节点的度分布。图中每个数据点(x,y),其中x是出度的大小,是正整数,y是出度为x的节点的数量。(最好将x的范围限定在最大和最小出度之间。)对于对数坐标系,x和y轴使用10的幂次做单位。


首先,我发现我调用LoadEdgeList后直接print了edge数,和我deleteselfedge后print的edge数没有变化,我猜可能这个LoadEdgeList函数可能也自动去除自环了吧,不过我没有去验证,只是不禁想到了第一题printInfo里的self edge信息里也是0,算了就不想管了。

回到正题。ER图就是无脑找API。SW图就照着要求画了一遍两个5242条边。需要稍微思考一下的地方就是随机找4000对节点连边了。科学家网络load就直接满足条件了。


part1


part2


part3

一开始没看问题,以为要把图画出来,找了相关的api去画直观图



一张图就70M


这也太大了

然后我看了看要求,原来要的不是这种图。稍微查了一下,有用Hadoop画图的,有用matlab库(?)画的(开头的链接里)。我也不太会用python,这么多库的东西我可不想研究了,找对象帮我用MATLAB画了一下。当然我得把x,y坐标分别打出来成3份文档。


然后就是无脑print(list)以后在bash里管道导到txt咯



看到都密恐的数据

虽然我没按要求去做那个最好限定x的范围,不过反正不用我手画图,也就无妨了,毕竟简单省事。






第四题嘛



看到数学公式直接头大选择放弃,毕竟也没怎么学,就不浪费时间了(不差这6分)



5. 社区发现 Louvain算法仅考虑无向无权图。Louvain算法是比利时的Louvain大学的工作,其作者是Blondel等人。在网上很容易找到Louvain算法的代码实现,不仅可以在小图上,而且在大图上该算法依然运行得很快。该算法基于模块化度的优化,通过社区的合并直到找到较好的社区结构。问题:

(1)在网上找到Louvain算法的实现,任何版本和语言均可。注释代码的主要流程。

(2)下载Zachary's karate club(http://www-personal.umich.edu/~mejn/netdata/),并简单描述数据集。

(3)在数据集上运行该代码,得到划分结果,并对比该结果与实际情况是否相同。

(4)在SNAP网站上的数据集中选择Networks with ground-truth communities中的任何一个数据集,运行Louvain算法,并对比划分结果与实际ground-truth的差异(选做题,对比差异时可以使用模块化度、NMI、ARI等指标)。

首先当我搜这个算法名的时候看到这种,当时我就退缩了


我觉得直接找找算法代码用就好了,就不研究了

首先映入眼帘的就是一个python版本的:https://python-louvain.readthedocs.io/en/latest/

点开,下载,读readme一气呵成。

然后看到example的时候


先不说这干了些啥,一来这么大一个load


直接就引入作业研究的数据集了吗(这就是官方数据集吗)

本着也不能太水的想法,换了个c++版本的

(DirectedLouvain)https://github.com/nicolasdugue/DirectedLouvain

说实话由于看不懂题,我决定把example里面的代码用要求的数据集跑一遍去交差算了。

但是看到这个下载的是gml格式数据,这个要求是txt(src - des)格式,于是找了个gml转txt的代码(开头),还不能直接用,提示没有label标签。(于是找了其他dataset的gml数据来对比了一下,确实karate的这个就没有label属性和weight属性,比较简单)于是找了下官方Networkx的tutorial和API,改了个转换这个gml格式的脚本

剩下就是把代码按example挨个跑了一遍收工。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342