目的:以Wiki vote投票网络等真实合作网络数据集、随机网络和小世界网络为例,学习网络的基本分析方法。
ok虽然咱理论不太懂,但是用API还是会的。先看看prepare
实验准备.可选SNAP、Networkx两种分析工具中任一种。如果使用python,请先安装。
(1)安装SNAP网络分析工具。推荐使用Snap.py for Python,也可以使用SNAP for C++。软件下载地址分别为:
Snap download(available from http://snap.stanford.edu/snap/download.html)
(2)Networkx网络分析工具,Python。基本使用方法可参见Networkx的在线手册:https://networkx.github.io/documentation/stable/index.html
这里建议,都不会的话就直接用Networkx吧。我先用的SNAP,最后才发现后续的gml格式数据集不能读取,还得查了Networkx用法后写了gml转txt的代码。
环境安装都比较简单,pip能解决一切问题。
在这里先把我用到的参考链接都一起附上:
(SNAP 常用方法)https://www.freesion.com/article/6914462644/
(CS224W 图神经网络 学习笔记(四)SNAP.PY: SNAP FOR PYTHON)https://www.freesion.com/article/7647792791/
(CS224W作业1)https://www.freesion.com/article/8186637191/(这玩意基本就是我第三题答案)
(十分钟学会graphviz画图)https://www.jianshu.com/p/6d9bbbbf38b1
!!主要参考资料:(snap使用指南.pdf)https://github.com/Mryangkaitong/snap.py/blob/master/snap%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.pdf
(官方API)http://snap.stanford.edu/snappy/doc/reference/index-ref.html
(gml转txt)https://blog.csdn.net/qq_36940806/article/details/103787750
1. Wikipedia vote网络的基本分析:数据集下载地址:http://snap.stanford.edu/data/wiki-Vote.html 使用分析工具加载Wikipedia voting 网络。该网络为有向图。节点集合V,边集E,边(a, b)表示用户a投票给用户b。计算并打印如下统计结果:
emmm查看了一下API发现,只有按度查询节点数量的功能。那就用最基本的思想:一个有/无向图,节点出/入度数<=节点总数(没自环就严格小于了)。接着只要全部遍历就可以了。节点总数这种信息在第一次printInfo就能看到。那就简单了
把info和print整理一下,就是结果了
2. StackOverow 网络分析下载StackOverow network stackoverflow-Java.txt.gz: 下载地址:http://snap.stanford.edu/class/cs224w-data/hw0/stackoverflow-Java.txt.gz. 数据集。该网络是有向网络,边 (a, b) 表示网络中a采纳了b给出的java相关问题的答案。给出下面的分析结果。
这道题也没有难度,也就是调API。最后也只需要按value逆序排序切片取一下前三的id就可以了
3. 随机图、小世界网络和真实网络的度分布
(1)ER图:生成n=5242个节点以及m=14484条边的随机图。可以自己写代码,也可以使用SNAP或Networkx函数。
(2)SW随机网络,从n=5242个节点的环形网络开始,加上节点连成圆圈,每个节点连接其直接的两个邻居(例,节点399连接398和400),此时共有5242条边。接下来,连接每个节点到其邻居的邻居(例,节点399连接397和401),这又会多出5242条边。最后随机选择未连接的4000对节点,在他们之间增加连边。此时一共有5242*2+4000=14484条边。可以自己写代码,可以调用SNAP或Networkx函数。
(3)科学家合作网络:下载无向网络http://snap.stanford.edu/data/ca-GrQc.txt.gz. 该数据集是arXiv库中广义相对论和量子宇宙方面的论文作者之间的关系。两个作者如果有共同合作论文,则二者之间有边向量。有些边在数据集中可能出现两次,去掉重边和自环后,共有5242个节点和14484条边。(注意,当使用SNAP的LoadEdgeList函数时,重边会自动忽略,但需删除自环的边)。 问题:在对数坐标系下,画出三个网络中节点的度分布。图中每个数据点(x,y),其中x是出度的大小,是正整数,y是出度为x的节点的数量。(最好将x的范围限定在最大和最小出度之间。)对于对数坐标系,x和y轴使用10的幂次做单位。
首先,我发现我调用LoadEdgeList后直接print了edge数,和我deleteselfedge后print的edge数没有变化,我猜可能这个LoadEdgeList函数可能也自动去除自环了吧,不过我没有去验证,只是不禁想到了第一题printInfo里的self edge信息里也是0,算了就不想管了。
回到正题。ER图就是无脑找API。SW图就照着要求画了一遍两个5242条边。需要稍微思考一下的地方就是随机找4000对节点连边了。科学家网络load就直接满足条件了。
一开始没看问题,以为要把图画出来,找了相关的api去画直观图
然后我看了看要求,原来要的不是这种图。稍微查了一下,有用Hadoop画图的,有用matlab库(?)画的(开头的链接里)。我也不太会用python,这么多库的东西我可不想研究了,找对象帮我用MATLAB画了一下。当然我得把x,y坐标分别打出来成3份文档。
然后就是无脑print(list)以后在bash里管道导到txt咯
虽然我没按要求去做那个最好限定x的范围,不过反正不用我手画图,也就无妨了,毕竟简单省事。
第四题嘛
看到数学公式直接头大选择放弃,毕竟也没怎么学,就不浪费时间了(不差这6分)
5. 社区发现 Louvain算法仅考虑无向无权图。Louvain算法是比利时的Louvain大学的工作,其作者是Blondel等人。在网上很容易找到Louvain算法的代码实现,不仅可以在小图上,而且在大图上该算法依然运行得很快。该算法基于模块化度的优化,通过社区的合并直到找到较好的社区结构。问题:
(1)在网上找到Louvain算法的实现,任何版本和语言均可。注释代码的主要流程。
(2)下载Zachary's karate club(http://www-personal.umich.edu/~mejn/netdata/),并简单描述数据集。
(3)在数据集上运行该代码,得到划分结果,并对比该结果与实际情况是否相同。
(4)在SNAP网站上的数据集中选择Networks with ground-truth communities中的任何一个数据集,运行Louvain算法,并对比划分结果与实际ground-truth的差异(选做题,对比差异时可以使用模块化度、NMI、ARI等指标)。
首先当我搜这个算法名的时候看到这种,当时我就退缩了
我觉得直接找找算法代码用就好了,就不研究了
首先映入眼帘的就是一个python版本的:https://python-louvain.readthedocs.io/en/latest/
点开,下载,读readme一气呵成。
然后看到example的时候
先不说这干了些啥,一来这么大一个load
直接就引入作业研究的数据集了吗(这就是官方数据集吗)
本着也不能太水的想法,换了个c++版本的
(DirectedLouvain)https://github.com/nicolasdugue/DirectedLouvain
说实话由于看不懂题,我决定把example里面的代码用要求的数据集跑一遍去交差算了。
但是看到这个下载的是gml格式数据,这个要求是txt(src - des)格式,于是找了个gml转txt的代码(开头),还不能直接用,提示没有label标签。(于是找了其他dataset的gml数据来对比了一下,确实karate的这个就没有label属性和weight属性,比较简单)于是找了下官方Networkx的tutorial和API,改了个转换这个gml格式的脚本
剩下就是把代码按example挨个跑了一遍收工。